Abstract RESUMO:Este artigo apresenta a metodologia empregada na compilação de um corpus linguístico do Português Brasileiro, o qual foi denominado de Corpus ABG, e no desenvolvimento de algumas ferramentas computacionais. O objetivo deste trabalho é reunir uma grande quantidade de textos, escritos e orais, que possa representar o falar brasileiro a fim de ser fonte de extração de dados fonológicos quantificados para duas pesquisas, a saber, Guide (2016) e Benevides (2017). O corpus contabiliza 3.616.625 ocorrências de palavras e 92.602 tipos de palavras, sendo que 1.938.805 ocorrências são provenientes dos corpora de fala e 1.676.820 ocorrências dos corpora escritos. Ancorado na metodologia da Linguística de Corpus e por meio de ferramentas computacionais desenvolvidas em Linguagem Python, o presente artigo divulga e disponibiliza à comunidade científica o Corpus ABG, as ferramentas computacionais (acentuador, categorizador de estruturas fonológicas, silabificador) e algumas informações fonológicas (acentuais e silábicas) já extraídas do corpus. Além disso, faz um convite a novas explorações dos dados a todos os pesquisadores que tiverem interesse.
Journal Type : Uluslararası
Relevant Articles | Author | # |
---|
Article | Author | # |
---|