Classificação de câncer de pâncreas utilizando Técnicas de imputação de dados faltantes e undersampling baseado em clusterização: uma análise comparativa com diferentes algoritmos de Machine Learning
Visualizar/ Abrir
Data
2023-07-13Autor
Sena, Wanessa Layssa Batista de
http://lattes.cnpq.br/3122764958081123
Metadata
Mostrar registro completoResumo
Dados faltantes e desbalanceamento de classes são problemas frequentemente
observados em bases de dados associadas a cenários reais, o que inclui a
classificação de câncer. Caso estes problemas não sejam endereçados de forma
adequada antes da análise, impactos no desempenho de modelos de Machine
Learning (ML) podem ser observados. Neste artigo, é proposta uma solução
combinada a partir da inserção de dados faltantes utilizando a técnica de kNN (k
vizinhos mais próximos) e undersampling baseado em clusterização utilizando k means, com foco na classificação do câncer de pâncreas. Diferentes subconjuntos
de dados foram gerados a partir da combinação de diferentes métodos de pré processamento e o desempenho analisado utilizando um pipeline de análise de ML
de um estudo prévio. Este pipeline executa dez algoritmos de ML, incluindo Random
Forest, Máquina de Vetores de Suporte e Redes Neurais Artificiais. Todos os
subconjuntos de dados gerados apresentaram um aumento significativo (p<0,05 com
teste-t de Student) no desempenho para a maioria dos algoritmos de ML quando
comparados aos resultados obtidos anteriormente quando o pipeline foi avaliado
pela primeira vez. Os resultados sugerem que kNN e k-means são métodos que
podem ser utilizados na fase de pré-processamento dos dados para solucionar
problemas de dados faltantes e desbalanceamento de classes e melhorar a acurácia
da classificação.
Os arquivos de licença a seguir estão associados a este item: