CATEGORIZAÇÃO AUTOMÁTICA DE TEXTOS UTILIZANDO ALGORITMOS DE APRENDIZADO SUPERVISIONADO DE MÁQUINA.

Publicado em 22/03/2021 - ISBN: 978-65-5941-128-3

Título do Trabalho
CATEGORIZAÇÃO AUTOMÁTICA DE TEXTOS UTILIZANDO ALGORITMOS DE APRENDIZADO SUPERVISIONADO DE MÁQUINA.
Autores
  • THIAGO DO NASCIMENTO OLIVEIRA
  • Giseli Rabello Lopes
  • João C. P. da Silva
Modalidade
Resumo apresentação oral padrão
Área temática
Centro de Ciências Matemáticas e da Natureza (CCMN)/Ciência da Computação
Data de Publicação
22/03/2021
País da Publicação
Brasil
Idioma da Publicação
Português
Página do Trabalho
https://www.even3.com.br/anais/jgmictac/319908-categorizacao-automatica-de-textos-utilizando-algoritmos-de-aprendizado-supervisionado-de-maquina
ISBN
978-65-5941-128-3
Palavras-Chave
Aprendizado de Máquina, Processamento de Linguagem Natural, Classificação Automática de Texto
Resumo
Estamos vivenciando um grande crescimento na publicação de informações nas mais diversas áreas do conhecimento. Este crescimento traz dificuldades para a organização e categorização manual por especialistas. Como muitas informações estão disponíveis em formato digital, a comunidade de pesquisa pode se beneficiar desenvolvendo e aplicando técnicas de Recuperação da Informação (Baeza-Yates e Ribeiro-Neto, 2013), Processamento de Linguagem Natural (Bird; Klein et al., 2009) e Mineração de Dados (Han; Kamber e Pei, 2011). É importante destacar o avanço na velocidade de processamento e capacidade de armazenamento que os hardwares ganharam, tornando viável e vantajosa a aplicação de abordagens de aprendizado de máquina para a classificação automática. A Classificação de textos é uma das aplicações de Mineração de Dados que, em geral, necessita de um documento, ou seja, uma sequência de palavras, e de um conjunto de categorias para descrever a categoria mais próxima. Já o Processamento de Linguagem Natural (PLN) é uma área de pesquisa inserida em Inteligência Artificial que estuda a capacidade e a limitação de um computador em compreender a linguagem criada pelos seres humanos. As técnicas de PLN são utilizadas na etapa de pré-processamento dos dados. Nesta etapa, ocorre a seleção e a extração dos atributos que serão aplicados nos treinamentos dos métodos de aprendizado supervisionado de máquina. Neste contexto, o presente trabalho aplica métodos de aprendizado de máquina para a categorização de textos em conjunto com as técnicas de PLN. Para o treinamento dos métodos, foram coletadas, na Web, notícias sobre o setor elétrico, classificadas manualmente por editores de um periódico. Os acontecimentos do setor elétrico, como pesquisas, investimentos e organização, são acompanhados e noticiados em diversos canais, uma vez que são de interesse da população. Dessa forma, o objetivo deste trabalho é desenvolver uma abordagem capaz de categorizar novas notícias, considerando o seu conteúdo. Os dados utilizados neste trabalho foram coletados, selecionados, tratados e transformados em uma representação compatível e eficiente para ser utilizada com os algoritmos. A base de dados coletada para o treinamento contém mais de 170 mil resumos de notícias que descrevem acontecimentos ocorridos ao longo de 18 anos (2003 - 2020) relacionados com o setor de energia elétrica e são pré-classificadas manualmente em 22 categorias. São discutidas questões relativas à representação de documentos, à construção e os ajustes destes classificadores automáticos para classificação de tais notícias. Além disso, as principais abordagens que se enquadram no paradigma do aprendizado supervisionado de máquina, como Máquinas de Vetores de Suporte, Floresta Aleatória, Árvore de Decisão, Classificador Naive Bayes, dentre outras, são utilizadas. Estas abordagens são comparadas, usando métricas de avaliação, visando destacar os algoritmos de classificação mais adequados para esta tarefa. REFERÊNCIAS BIBLIOGRÁFICAS: Baeza-Yates, R.; Ribeiro-Neto, B. Recuperação de Informação: Conceitos e Tecnologia das Máquinas de Busca. 2 ed. Bookman, 2013. Bird, S.; Klein, E. et al. Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit. O'Reilly Media. 2009 Han, J.; Kamber, M.; Pei, J. Data Mining: Concepts and Techniques. 3 ed. Morgan Kaufmann Publishers, 2011.
Título do Evento
XLII Jornada Giulio Massarani de Iniciação Científica, Tecnológica, Artística e Cultural (JICTAC 2020 - Edição Especial) - Evento UFRJ
Título dos Anais do Evento
Anais da Jornada Giulio Massarani de Iniciação Científica, Tecnológica, Artística e Cultural
Nome da Editora
Even3
Meio de Divulgação
Meio Digital

Como citar

OLIVEIRA, THIAGO DO NASCIMENTO; LOPES, Giseli Rabello; SILVA , João C. P. da Silva . CATEGORIZAÇÃO AUTOMÁTICA DE TEXTOS UTILIZANDO ALGORITMOS DE APRENDIZADO SUPERVISIONADO DE MÁQUINA... In: Anais da Jornada Giulio Massarani de Iniciação Científica, Tecnológica, Artística e Cultural. Anais...Rio de Janeiro(RJ) UFRJ, 2021. Disponível em: https//www.even3.com.br/anais/jgmictac/319908-CATEGORIZACAO-AUTOMATICA-DE-TEXTOS-UTILIZANDO-ALGORITMOS-DE-APRENDIZADO-SUPERVISIONADO-DE-MAQUINA. Acesso em: 15/02/2025

Trabalho

Even3 Publicacoes