Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado Nº  1.933

Aluno: Rodolfo José de Oliveira Soares
Orientador: Prof. George Darmiton da Cunha Cavalcanti
Co-orientador: Prof. Edson Leite Araújo
Título: sPerC: Um Classificador Baseado em Perturbação para Dados Multimodais
Data: 07/10/2020
Hora/Local: 14h – Virtual –  https://meet.google.com/ysh-cwkc-vgb
Banca Examinadora:
Prof. Hansenclever de França Bassani (UFPE / Centro de Informática)
Prof. Thiago Oliveira dos Santos (UFES / Departamento de Informática)
Prof. George Darmiton da Cunha Cavalcanti (UFPE / Centro de Informática)


RESUMO:

Na literatura, a teoria bayesiana é amplamente utilizada como base para a 
geração de novos modelos supervisionados, dada sua robustez em diversos 
contextos. Entre as diferentes técnicas embasadas no modelo estatístico, o 
classificador baseado em perturbações (PerC, do inglês Perturbation-based 
Classifier) utiliza as alterações ocorridas nos parâmetros ^𝜇 e ^Σ, 
chamadas de Δ^𝜇 e Δ^Σ, para rotular novas amostras, tendo seu desempenho 
comprovado em vários cenários. Entretanto, quando o PerC é submetido a 
problemas que seguem uma distribuição multimodal, sua performance, e seu 
poder de generalização, degradam. Neste contexto, a multimodalidade pode 
ser observada quando exemplos de uma mesma classe formam grupos (clusters) 
dispersos no espaço de características. Assim, a multimodalidade aumenta a 
complexidade dos dados, reduzindo o nível de discernimento dos vetores 
médios e matrizes de covariâncias estimadas pelo classificador PerC. Para 
preencher essa lacuna, este trabalho apresenta uma nova abordagem de 
classificação para o algoritmo PerC, intitulada sPerC (do inglês, 
subconcept PerC), no qual utiliza o algoritmo K-Means para particionar os 
dados do problema em clusters, fornecendo-os como entrada para a técnica 
PerC, com o intuito de aprimorar o poder de generalização do modelo. A 
partir da combinação de 4 diferentes clustering validation índices, o valor 
do parâmetro 𝐾 é estimado para o algoritmo K-Means. Vale destacar que 
nenhum conhecimento prévio, sobre os domínios em estudo, é levado em 
consideração ao definir o valor do parâmetro. Experimentos foram conduzidos 
usando 30 bases de dados disponíveis nos repositórios KEEL e UCI Machine 
Learning, comparando o desempenho do método proposto em relação as técnicas 
PerC (versão original), Árvore de Decisão, k-NN, Multilayer Perceptron 
(MLP), Naïve Bayes, Random Forest e Support Vector Machine (SVM). Os 
resultados demonstraram a eficácia do trabalho proposto, alcançando 
desempenho competitivos em relação aos métodos Random Forest e Árvore de 
Decisão, e sendo significativamente superior aos algoritmos PerC, MLP e 
SVM, segundo os testes estatísticos de Wilcoxon e Friedman. Por fim, 22 
medidas de complexidades foram adotadas na extração de características das 
bases de dados e utilizadas na construção de um meta-learning dataset para 
descrever os cenários favoráveis para a aplicação do método sPerC, a partir 
de um meta-classificador.

Palavras-chave: Perturbações, Multimodalidade, Agrupamento de dados, 
Validação de clusters, Classificação

Comentários desativados