COLETA DE DADOS AUTOMATIZADA NA REDE SOCIAL TWITTER: PERSPECTIVAS SOBRE A LINGUAGEM R PARA A LINGUÍSTICA DE CORPUS

Publicado em 22/03/2021 - ISBN: 978-65-5941-128-3

Título do Trabalho
COLETA DE DADOS AUTOMATIZADA NA REDE SOCIAL TWITTER: PERSPECTIVAS SOBRE A LINGUAGEM R PARA A LINGUÍSTICA DE CORPUS
Autores
  • Pedro Giovani Duarte Poppolino
  • Lais Lima de Souza
  • Mariana Gonçalves da Costa
  • Marcia dos Santos Machado Vieira
Modalidade
Resumo apresentação oral padrão
Área temática
Centro de Letras e Artes (CLA)/Linguística
Data de Publicação
22/03/2021
País da Publicação
Brasil
Idioma da Publicação
Português
Página do Trabalho
https://www.even3.com.br/anais/jgmictac/317710-coleta-de-dados-automatizada-na-rede-social-twitter--perspectivas-sobre-a-linguagem-r-para-a-linguistica-de-corpu
ISBN
978-65-5941-128-3
Palavras-Chave
Linguagem R, Twitter, coleta de dados, Linguística de Corpus
Resumo
Perspectivas teóricas baseadas no uso e antenadas à comunicação online da humanidade cada dia mais digital põem em cena a questão de constituição e exploração de corpus representativo das práticas discursivas, cujo impacto ultrapassa certamente o âmbito de Letras e Linguística. A proposta desta comunicação centra-se no relato de aspectos apreendidos na experiência que temos tido sobre a utilização da linguagem de software R para a coleta de dados linguísticos em enunciados produzidos na rede social Twitter. Durante o ano de 2020, deparamo-nos com a necessidade de coletar um grande número de dados autênticos para criação de corpora que pudessem ser explorados em diferentes pesquisas desenvolvidas no âmbito do Projeto PREDICAR. Para isso, buscamos ferramentas computacionais capazes de coletar dados de maneira extensa e automatizada. Esta apresentação visa a demonstrar, a partir da nossa experiência, como o programa R, conjugado à plataforma Twitter, são duas ferramentas promissoras para o campo da linguística de corpus. Pretendemos tratar de propriedades, limites e potencialidades envolvidos no processo de constituição de corpus por meio dessas duas ferramentas (R e Twitter) e de consideração de múltiplos fatores que norteiam ponderações e decisões relativas à garimpagem/triagem de enunciados. Entre esses fatores destacamos: (i) como a formulação da busca pode interferir nos resultadas da coleta e (ii) como a contextualidade (GOLDBERG, 2016) pode direcionar o que é relevante na definição da extensão e da abrangência da amostra, visto que acontecimentos sociais podem levar determinados assuntos a terem picos de frequência. O Twitter é hoje uma das redes sociais mais utilizadas no mundo, configurando-se como um banco de dados de um gênero (tweet/tuíte) que já se convencionalizou socialmente como um legítimo espaço de interlocução. Desse modo, entendemos que esta comunicação promove, a um só tempo, (i) informações que encaminham esse espaço como fonte de corpus para a área das investigações linguísticas e (ii) subsídios a favorecer o processo de as melhor gerir/estruturar metodologicamente. REFERÊNCIAS BIBLIOGRÁFICAS GOLDBERG, A. Compositionality. In: RIEMER, Nick. The Routledge Handbook of Semantics. London and New York: Routledge, p. 415-433, 2016.
Título do Evento
XLII Jornada Giulio Massarani de Iniciação Científica, Tecnológica, Artística e Cultural (JICTAC 2020 - Edição Especial) - Evento UFRJ
Título dos Anais do Evento
Anais da Jornada Giulio Massarani de Iniciação Científica, Tecnológica, Artística e Cultural
Nome da Editora
Even3
Meio de Divulgação
Meio Digital

Como citar

POPPOLINO, Pedro Giovani Duarte et al.. COLETA DE DADOS AUTOMATIZADA NA REDE SOCIAL TWITTER: PERSPECTIVAS SOBRE A LINGUAGEM R PARA A LINGUÍSTICA DE CORPUS.. In: Anais da Jornada Giulio Massarani de Iniciação Científica, Tecnológica, Artística e Cultural. Anais...Rio de Janeiro(RJ) UFRJ, 2021. Disponível em: https//www.even3.com.br/anais/jgmictac/317710-COLETA-DE-DADOS-AUTOMATIZADA-NA-REDE-SOCIAL-TWITTER--PERSPECTIVAS-SOBRE-A-LINGUAGEM-R-PARA-A-LINGUISTICA-DE-CORPU. Acesso em: 02/05/2025

Trabalho

Even3 Publicacoes