PIPELINE DE PRÉ-PROCESSAMENTO E EXTRAÇÃO DE CARACTERÍSTICAS PARA CLASSIFICAÇÃO DE SENTIMENTOS EM TEXTOS DE SAÚDE MENTAL EM REDES SOCIAIS

Publicado em 18/02/2026 - ISBN: 978-65-272-2221-7

Título do Trabalho
PIPELINE DE PRÉ-PROCESSAMENTO E EXTRAÇÃO DE CARACTERÍSTICAS PARA CLASSIFICAÇÃO DE SENTIMENTOS EM TEXTOS DE SAÚDE MENTAL EM REDES SOCIAIS
Autores
  • Bruna Pisani De Souza
  • Dayane Perez Bravo
  • Ederson Cichaczewski
  • Fabricio Jorge Souza Magalhães
Modalidade
Resumo
Área temática
Técnologia em Desenvolvimento de Sistemas e Tecnologia da Informação
Data de Publicação
18/02/2026
País da Publicação
Brasil
Idioma da Publicação
pt-BR
Página do Trabalho
https://www.even3.com.br/anais/iv-simpar/1417923-pipeline-de-pre-processamento-e-extracao-de-caracteristicas-para-classificacao-de-sentimentos-em-textos-de-saude
ISBN
978-65-272-2221-7
Palavras-Chave
Processamento de Linguagem Natural; Análise de Sentimentos; Saúde Mental; Reddit;
Resumo
O Processamento de Linguagem Natural (NLP) é um ramo da Inteligência Artificial e da Linguística, dedicado a fazer com que os computadores compreendam declarações ou palavras escritas em linguagem humana. Dentro do âmbito da saúde mental o NLP tem um papel de destaque, sendo uma abordagem promissora para identificar padrões emocionais que podem contribuir para a detecção precoce de sinais de sofrimento psíquico em seres humanos. Este trabalho propõe uma metodologia para analisar sentimentos em posts do subreddit “Conversas” na rede social Reddit, usando técnicas computacionais de análise de sentimentos, através de abordagens de inteligência artificial. A coleta de dados foi feita por meio de uma API pública do Reddit, respeitando a LGPD com anonimização dos usuários e as diretrizes éticas para uso de dados em pesquisas. A linguagem de programação empregada foi Python, juntamente com bibliotecas como PRAW, Pandas, Langdetect, Emoji e RE, utilizadas para o pré-processamento e a organização eficiente dos dados. A coleta foi dividida em três categorias de sentimento: positivo, negativo e neutro, classificadas com base em critérios pré-estabelecidos. Para cada categoria, foram selecionadas palavras-chave representativas, como "amo" e "feliz" para o sentimento positivo, ou "triste" e "ódio" para o negativo. Essas palavras foram analisadas com a biblioteca WordCloud, responsável pela geração de nuvens de palavras. Essa técnica permite uma familiarização rápida com o conteúdo de grandes coleções textuais, identificando domínios temáticos em poucos segundos. Etapas de pré-processamento foram necessárias para a geração de uma nuvem de palavras, considerando a presença marcante de gírias, expressões informais e regionalismos no corpus. Inicialmente, a filtragem de stop words em português foi realizada com o auxílio da biblioteca NLTK, porém sem melhorias significativas na qualidade do resultado. Em uma segunda tentativa, adotou-se uma abordagem que combinava uma lista manual de termos frequentes com a métrica TF-IDF (Term Frequency - Inverse Document Frequency), a qual pondera as palavras conforme sua frequência relativa no conjunto de documentos. Apesar disso, os resultados permaneciam insatisfatórios. Diante das limitações encontradas, e com base na metodologia de análise textual, implementou-se um pipeline de pré-processamento mais robusto, composto pelas etapas de tokenização, etiquetagem morfossintática (POS tagging), executadas com a biblioteca SpaCy – e lematização, esta última utilizando o modelo linguístico mais abrangente (550MB) para o português. No processo, foi mantida a existência da lista manual de exclusão e do filtro do NLTK. Essa abordagem multidimensional resultou finalmente, em nuvens de palavras com excelente definição. Para as próximas etapas da pesquisa, será feita a extração de features dos textos processados, que serão subsequentemente submetidos à classificação por meio de algoritmos de aprendizado de máquina clássicos, como Random Forest, Naive Bayes, SVM (Máquinas de Vetores de Suporte) e Regressão Logística. Os resultados obtidos apresentaram potencial de contribuir para o desenvolvimento de ferramentas de suporte à saúde mental, auxiliando profissionais e usuários na detecção precoce de sinais de sofrimento psíquico e na promoção do bem-estar emocional.
Título do Evento
IV SIMPAR - Simpósio de Pesquisa, Extensão e Inovação do Paraná
Cidade do Evento
Campo Mourão
Título dos Anais do Evento
Anais do Simpósio de Pesquisa, Extensão e Inovação do Paraná
Nome da Editora
Even3
Meio de Divulgação
Meio Digital

Como citar

SOUZA, Bruna Pisani De et al.. PIPELINE DE PRÉ-PROCESSAMENTO E EXTRAÇÃO DE CARACTERÍSTICAS PARA CLASSIFICAÇÃO DE SENTIMENTOS EM TEXTOS DE SAÚDE MENTAL EM REDES SOCIAIS.. In: Anais do Simpósio de Pesquisa, Extensão e Inovação do Paraná. Anais...Campo Mourão(PR) CEI, 2024. Disponível em: https//www.even3.com.br/anais/iv-simpar/1417923-PIPELINE-DE-PRE-PROCESSAMENTO-E-EXTRACAO-DE-CARACTERISTICAS-PARA-CLASSIFICACAO-DE-SENTIMENTOS-EM-TEXTOS-DE-SAUDE. Acesso em: 26/05/2026

Trabalho

Even3 Publicacoes