Trabalho final em Fundamentos de Ciência de Dados - PPGI/UFRJ

Professores:

Sergio Serra	Jorge Zavaleta
serra@pet-si.ufrrj.br	zavaleta@pet-si.ufrrj.br

Processamento de dados em português brasileiro

Este estudo analisa comparativamente a aplicação de lematizadores no processamento sintático de textos em português brasileiro. Neste trabalho, analisamos a aplicação de três lematizadores disponíveis para o português: (i) o modelo de linguagem da biblioteca spaCy; (ii) o método baseado em dependências universais do pacote simplemma; e (iii) a abordagem por documentos lexicográficos (PortilexiconUD: Projeto POeTiSA). O banco de dados utilizado nessa análise pode ser encontrado em D&G UFF.

Mariana Gonçalves da Costa [Programa de Pós-Graduação em Informática/UFRJ]
Last updated: 19 January 2025 Code produced in Python 3.10 - Google Colab

Arquivos disponibilizados

Dataset em txt
Dicionário de stopwords em json
Arquivo pré-processado da base conjugada e da base Rio Grande com e sem stopwords
Lematização da base conjugada e da base Rio Grande pelos três lematizadores

Imagens disponibilizadas

Grafo de proveniência do pré-processamento dos dados
Grafo de proveniência da lematização

Notebooks disponibilizados

Tratamento de dados do português
Aplicação do prov-model
Treinamento de lematizador spaCy (em andamento)

Autoria:

Mariana Gonçalves da Costa, Sergio Serra e Jorge Zavaleta
Contato: marianag.costta@gmail.com
Página: https://www.linkedin.com/in/mariana-gdacosta/

Artigo: Decifrando dados linguísticos: análise comparativa dos lematizadores para língua portuguesa

Name		Name	Last commit message	Last commit date
Latest commit History 46 Commits
Corpus-DeG-em-txt		Corpus-DeG-em-txt
bases-preprocessadas		bases-preprocessadas
images		images
lematizacao		lematizacao
Decifrando_dados_linguísticos__análise_comparativa_dos_lematizadores_para_língua_portuguesa.pdf		Decifrando_dados_linguísticos__análise_comparativa_dos_lematizadores_para_língua_portuguesa.pdf
LICENSE		LICENSE
README.md		README.md
Tratamento_de_dados_do_português.ipynb		Tratamento_de_dados_do_português.ipynb
Treinamento_spaCy.ipynb		Treinamento_spaCy.ipynb
proveniencia.ipynb		proveniencia.ipynb
stopwords.json		stopwords.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Trabalho final em Fundamentos de Ciência de Dados - PPGI/UFRJ

Professores:

Processamento de dados em português brasileiro

Arquivos disponibilizados

Imagens disponibilizadas

Notebooks disponibilizados

Autoria:

About

Releases

Packages

Languages

License

MarianaGCosta/Processamento-de-dados-em-portugues-brasileiro

Folders and files

Latest commit

History

Repository files navigation

Trabalho final em Fundamentos de Ciência de Dados - PPGI/UFRJ

Professores:

Processamento de dados em português brasileiro

Arquivos disponibilizados

Imagens disponibilizadas

Notebooks disponibilizados

Autoria:

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages