Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado Nº 1.933
Aluno: Rodolfo José de Oliveira Soares
Orientador: Prof. George Darmiton da Cunha Cavalcanti
Co-orientador: Prof. Edson Leite Araújo
Título: sPerC: Um Classificador Baseado em Perturbação para Dados Multimodais
Data: 07/10/2020
Hora/Local: 14h – Virtual – https://meet.google.com/ysh-cwkc-vgb
Banca Examinadora:
Prof. Hansenclever de França Bassani (UFPE / Centro de Informática)
Prof. Thiago Oliveira dos Santos (UFES / Departamento de Informática)
Prof. George Darmiton da Cunha Cavalcanti (UFPE / Centro de Informática)
RESUMO:
Na literatura, a teoria bayesiana é amplamente utilizada como base para a
geração de novos modelos supervisionados, dada sua robustez em diversos
contextos. Entre as diferentes técnicas embasadas no modelo estatístico, o
classificador baseado em perturbações (PerC, do inglês Perturbation-based
Classifier) utiliza as alterações ocorridas nos parâmetros ^𝜇 e ^Σ,
chamadas de Δ^𝜇 e Δ^Σ, para rotular novas amostras, tendo seu desempenho
comprovado em vários cenários. Entretanto, quando o PerC é submetido a
problemas que seguem uma distribuição multimodal, sua performance, e seu
poder de generalização, degradam. Neste contexto, a multimodalidade pode
ser observada quando exemplos de uma mesma classe formam grupos (clusters)
dispersos no espaço de características. Assim, a multimodalidade aumenta a
complexidade dos dados, reduzindo o nível de discernimento dos vetores
médios e matrizes de covariâncias estimadas pelo classificador PerC. Para
preencher essa lacuna, este trabalho apresenta uma nova abordagem de
classificação para o algoritmo PerC, intitulada sPerC (do inglês,
subconcept PerC), no qual utiliza o algoritmo K-Means para particionar os
dados do problema em clusters, fornecendo-os como entrada para a técnica
PerC, com o intuito de aprimorar o poder de generalização do modelo. A
partir da combinação de 4 diferentes clustering validation índices, o valor
do parâmetro 𝐾 é estimado para o algoritmo K-Means. Vale destacar que
nenhum conhecimento prévio, sobre os domínios em estudo, é levado em
consideração ao definir o valor do parâmetro. Experimentos foram conduzidos
usando 30 bases de dados disponíveis nos repositórios KEEL e UCI Machine
Learning, comparando o desempenho do método proposto em relação as técnicas
PerC (versão original), Árvore de Decisão, k-NN, Multilayer Perceptron
(MLP), Naïve Bayes, Random Forest e Support Vector Machine (SVM). Os
resultados demonstraram a eficácia do trabalho proposto, alcançando
desempenho competitivos em relação aos métodos Random Forest e Árvore de
Decisão, e sendo significativamente superior aos algoritmos PerC, MLP e
SVM, segundo os testes estatísticos de Wilcoxon e Friedman. Por fim, 22
medidas de complexidades foram adotadas na extração de características das
bases de dados e utilizadas na construção de um meta-learning dataset para
descrever os cenários favoráveis para a aplicação do método sPerC, a partir
de um meta-classificador.
Palavras-chave: Perturbações, Multimodalidade, Agrupamento de dados,
Validação de clusters, Classificação
Comentários desativados