Sergio Serra | Jorge Zavaleta |
---|---|
serra@pet-si.ufrrj.br | zavaleta@pet-si.ufrrj.br |
Este estudo analisa comparativamente a aplicação de lematizadores no processamento sintático de textos em português brasileiro. Neste trabalho, analisamos a aplicação de três lematizadores disponíveis para o português: (i) o modelo de linguagem da biblioteca spaCy; (ii) o método baseado em dependências universais do pacote simplemma; e (iii) a abordagem por documentos lexicográficos (PortilexiconUD: Projeto POeTiSA). O banco de dados utilizado nessa análise pode ser encontrado em D&G UFF.
Mariana Gonçalves da Costa [Programa de Pós-Graduação em Informática/UFRJ]
Last updated: 19 January 2025
Code produced in Python 3.10 - Google Colab
- Dataset em txt
- Dicionário de stopwords em json
- Arquivo pré-processado da base conjugada e da base Rio Grande com e sem stopwords
- Lematização da base conjugada e da base Rio Grande pelos três lematizadores
- Tratamento de dados do português
- Aplicação do prov-model
- Treinamento de lematizador spaCy (em andamento)
- Mariana Gonçalves da Costa, Sergio Serra e Jorge Zavaleta
- Contato: marianag.costta@gmail.com
- Página: https://www.linkedin.com/in/mariana-gdacosta/
Artigo: Decifrando dados linguísticos: análise comparativa dos lematizadores para língua portuguesa