Skip to content

MarianaGCosta/Processamento-de-dados-em-portugues-brasileiro

Repository files navigation

image

Trabalho final em Fundamentos de Ciência de Dados - PPGI/UFRJ

Professores:

Sergio Serra Jorge Zavaleta
serra@pet-si.ufrrj.br zavaleta@pet-si.ufrrj.br

Processamento de dados em português brasileiro

Este estudo analisa comparativamente a aplicação de lematizadores no processamento sintático de textos em português brasileiro. Neste trabalho, analisamos a aplicação de três lematizadores disponíveis para o português: (i) o modelo de linguagem da biblioteca spaCy; (ii) o método baseado em dependências universais do pacote simplemma; e (iii) a abordagem por documentos lexicográficos (PortilexiconUD: Projeto POeTiSA). O banco de dados utilizado nessa análise pode ser encontrado em D&G UFF.

Mariana Gonçalves da Costa [Programa de Pós-Graduação em Informática/UFRJ]
Last updated: 19 January 2025 Code produced in Python 3.10 - Google Colab


Arquivos disponibilizados

  • Dataset em txt
  • Dicionário de stopwords em json
  • Arquivo pré-processado da base conjugada e da base Rio Grande com e sem stopwords
  • Lematização da base conjugada e da base Rio Grande pelos três lematizadores

Imagens disponibilizadas

  • Grafo de proveniência do pré-processamento dos dados Pré-processamento_Corpus_DeG

  • Grafo de proveniência da lematização Lematizacao Rio Grande


Notebooks disponibilizados


Autoria:


Artigo: Decifrando dados linguísticos: análise comparativa dos lematizadores para língua portuguesa

Releases

No releases published

Packages

No packages published