MODELO DE CLASSIFICAÇÃO BASEADO EM RANDOM FOREST PARA IDENTIFICAÇÃO DE CÂNCER DE MAMA A PARTIR DE PERFIS TRANSCRIPTÔMICOS

Publicado em 11/12/2024 - ISBN: 978-65-272-1024-5

Título do Trabalho
MODELO DE CLASSIFICAÇÃO BASEADO EM RANDOM FOREST PARA IDENTIFICAÇÃO DE CÂNCER DE MAMA A PARTIR DE PERFIS TRANSCRIPTÔMICOS
Autores
  • Monique Borges Seixas
  • Natália Santos Padre
  • MARCELLA SCOCZYNSKI RIBEIRO MARTINS
  • Maria Fernanda O. de Figueiredo
  • Paulo Victor dos Santos
  • DANILO SIPOLI SANCHES
  • Heron dos Santos Lima
Modalidade
Resumo (poster)
Área temática
Bancos de Dados e Desenvolvimento de Softwares
Data de Publicação
11/12/2024
País da Publicação
Brasil
Idioma da Publicação
Português
Página do Trabalho
https://www.even3.com.br/anais/epbioinfo2024/997834-modelo-de-classificacao-baseado-em-random-forest-para-identificacao-de-cancer-de-mama-a-partir-de-perfis-transcri
ISBN
978-65-272-1024-5
Palavras-Chave
Câncer de mama, Classificador, Random Forest, Transcriptoma.
Resumo
O câncer de mama é uma das principais causas de mortalidade entre mulheres em todo o mundo. A análise de perfis transcriptômicos, que envolve a sequenciação de RNAs transcritos para investigar a expressão gênica, permite a identificação de biomarcadores relevantes para a progressão da doença, auxiliando na descoberta de novos tratamentos. O transcriptoma representa o conjunto completo de transcrições de RNA em uma célula, refletindo a atividade gênica em diferentes condições, como estados normais e tumorais. Por isso, o estudo do transcriptoma é essencial para entender as alterações moleculares associadas ao câncer de mama, proporcionando insights sobre possíveis alvos terapêuticos e estratégias de diagnóstico. Este estudo tem como objetivo desenvolver e validar um modelo de classificação baseado em Random Forest, utilizando dados transcriptômicos do The Cancer Genome Atlas (TCGA) para prever a presença de câncer de mama. Os dados abrangem diferentes estágios do câncer, incluindo fases primárias, metastáticas e tecidos sólidos normais. No pré-processamento, os dados foram organizados de forma que os genes fossem representados por colunas e os indivíduos por linhas, seguidos de normalização. Indivíduos sem tumor foram codificados como 0, enquanto aqueles com tumores primários ou metastáticos foram codificados como 1. Ao analisar os perfis transcriptômicos, o modelo Random Forest foi implementado para capturar padrões de expressão gênica que distinguissem com precisão entre amostras saudáveis e tumorais. O modelo Random Forest apresentou um desempenho notável, alcançando uma precisão de 99,02% na classificação de amostras de câncer de mama. A matriz de confusão revelou que o modelo conseguiu identificar corretamente 282 amostras tumorais e 23 normais, com apenas 3 classificações incorretas. Realizando um cross-validation com cinco repetições, obtivemos uma acurácia média de 99,38%, com um desvio padrão de 0,81%, indicando uma alta consistência nos resultados. O recall e a precisão médios foram de 99,55% e 99,78%, respectivamente, o que reforça a capacidade do modelo de prever corretamente os casos positivos e minimizar falsos positivos. O F1 score médio de 99,51% e seu baixo desvio padrão de 0,22% também destacam a eficácia geral do modelo. O uso de cross-validation foi crucial para garantir que o modelo generalizasse bem para novos dados, evitando o overfitting. Este estudo demonstrou que a combinação de dados genômicos e transcriptômicos com técnicas avançadas de aprendizado de máquina, como o Random Forest, oferece uma abordagem eficaz para a classificação e compreensão do câncer de mama. A análise do transcriptoma mostrou-se particularmente valiosa, permitindo capturar a complexidade da regulação gênica envolvida no desenvolvimento do câncer. A alta precisão obtida sugere seu potencial para aplicação em diagnósticos clínicos. Futuramente, pretende-se comparar o desempenho deste modelo com outros classificadores de aprendizado de máquina e realizar análises de pós-processamento para identificar as características mais relevantes.
Título do Evento
Escola Paranaense de Bioinformática
Cidade do Evento
Londrina
Título dos Anais do Evento
Anais da Escola Paranaense de Bioinformática
Nome da Editora
Even3
Meio de Divulgação
Meio Digital

Como citar

SEIXAS, Monique Borges et al.. MODELO DE CLASSIFICAÇÃO BASEADO EM RANDOM FOREST PARA IDENTIFICAÇÃO DE CÂNCER DE MAMA A PARTIR DE PERFIS TRANSCRIPTÔMICOS.. In: Anais da Escola Paranaense de Bioinformática. Anais...Londrina(PR) UEL, 2024. Disponível em: https//www.even3.com.br/anais/epbioinfo2024/997834-MODELO-DE-CLASSIFICACAO-BASEADO-EM-RANDOM-FOREST-PARA-IDENTIFICACAO-DE-CANCER-DE-MAMA-A-PARTIR-DE-PERFIS-TRANSCRI. Acesso em: 30/06/2025

Trabalho

Even3 Publicacoes