Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado Nº 2.246
Aluno: Camila de Sousa Dantas
Orientador: Prof. Jamilson Ramalho Dantas
Coorientador: Prof. João Ferreira da Silva Junior (Universidade de Coimbra)
Título: Uma estratégia para Seleção de Atributos em Dados Não Paramétricos com Aplicações em Aprendizado de Máquina
Data: 28/08/2025
Hora/Local: 11h – Virtual – Interessados em assistir entrar em contato com a aluna
Banca Examinadora:
Prof. Eduardo Antonio Guimarães Tavares (UFPE / Centro de Informática)
Prof. Ermeson Carneiro de Andrade (UFRPE / Departamento de Computação)
Prof. Jamilson Ramalho Dantas (UFPE / Centro de Informática)
RESUMO:
A análise de dados não paramétricos, desbalanceados e de alta dimensionalidade é um desafio recorrente em diversas aplicações de Aprendizado de Máquina (AM), onde métodos tradicionais de seleção de atributos (Feature Selection – FS) frequentemente falham devido a suposições restritivas (como normalidade dos dados) ou alto custo computacional. Este trabalho propõe uma estratégia abrangente de FS para sistemas baseados em AM por meio de uma abordagem não paramétrica, robusta e escalável. O modelo é estruturado em três estágios: filtragem, clusterização e ranqueamento, utilizando métricas adaptadas como entropia de Shannon, correlação de Spearman, distância de Bhattacharyya modificada e informação mútua ajustada (AMI), que dispensam premissas rígidas sobre a distribuição dos dados. Implementado em Python, o algoritmo foi validado experimentalmente em múltiplos cenários, incluindo estudos de caso em cibersegurança com bases de dados reais de tráfego de rede e ataques cibernéticos, empregando classificadores como RandomForest, validação cruzada (10-fold) e testes estatísticos não paramétricos (Friedman e Nemenyi). Os resultados demonstraram redução média de 81,5% na dimensionalidade sem comprometer a exatidão, com superioridade estatística (p-valor < 0,05) em métricas como acurácia, F1-score e AUC-ROC em comparação a métodos tradicionais, além de reduzir o tempo de processamento em até 3,8 vezes. A estabilidade das seleções atingiu mais de 90% de concordância, evidenciando a confiabilidade do modelo. A estratégia proposta não apenas melhora a eficiência computacional e a performance preditiva em problemas complexos, mas também amplia a explicabilidade e adaptabilidade a domínios com dados heterogêneos, oferecendo uma alternativa para a seleção de atributos em cenários onde dados não paramétricos são predominantes.
Palavras-chave: Seleção de Características. Técnicas não paramétricas. Desempenho de sistemas. Redução de Dimensionalidade.
Comentários desativados