Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado Nº 2.066
Aluno: José Nataniel Andrade de Sá
Orientador: Prof. Francisco de Assis Tenório de Carvalho
Coorientador: Prof. Marcelo Rodrigo Portela Ferreira (UFPB / Departamento de Estatística
Título: Modelos de Co-clustering Fuzzy Baseados em Kernel no Espaço de
Características com Ponderação Automática das Variáveis
Data: 24/02/2023
Hora/Local: 9h – Virtual – Interessados em assistir entrar em contato com o aluno
Banca Examinadora:
Prof. Sérgio Ricardo de Melo Queiroz (UFPE / Centro de Informática)
Prof. Luciano Demétrio Santos Pacífico (UFRPE / Departamento de Computação)
Prof. Francisco de Assis Tenório de Carvalho (UFPE / Centro de Informática)
RESUMO:
Nesta dissertação, propomos métodos de co-clustering fuzzy baseados em
kernel com ponderação automática das variáveis via distâncias adaptativas.
Algoritmos de co-clustering realizam o agrupamento simultâneo de objetos e
variáveis. Esses métodos organizam a matriz de dados em blocos homogêneos,
conseguindo fornecer insights a respeito da associação entre objetos e
variáveis. Funções kernel têm sido usadas com sucesso nos algoritmos de
agrupamento convencional para mitigar o problema da separabilidade dos
grupos, que também pode afetar os algoritmos de co-clustering. O uso de
distâncias adaptativas nos permite aprender dinamicamente os pesos das
variáveis durante o processo de otimização, levando a uma melhora no
desempenho dos algoritmos. Distâncias adaptativas mudam a cada iteração do
algoritmo e podem ser a mesma para todos os grupos (distância adaptativa
global) ou diferentes de um grupo para outro (distância adaptativa local).
Nesse sentido, três algoritmos foram propostos: (i) O Gaussian Kernel Fuzzy
Double K-Means (GKFDK) é o algoritmo base, o qual combina co-clustering com
o kernel gaussiano, mas considera que todas as variáveis são igualmente
importantes na formação dos grupos de objetos. (ii) O Gaussian Kernel Fuzzy
Double K-Means Based on Global Adaptive Distance (GKFDK-GP) é uma extensão
do GKFDK que realiza a ponderação de variáveis. O GKFDK-GP considera que as variáveis têm o mesmo peso para todos os grupos de objetos. (iii) O Gaussian Kernel Fuzzy Double
K-Means Based on Local Adaptive Distance (GKFDK-LP) também é uma extensão
do GKFDK que realiza a ponderação de variáveis. Contudo, o GKFDK-LP
considera que as variáveis têm pesos diferentes para cada grupo de objetos.
Experimentos realizados com dados sintéticos e reais, em comparação com
algoritmos de co-clustering e de agrupamento convencional do estado da
arte, mostraram a eficácia dos algoritmos propostos. Os modelos com
ponderação das variáveis apresentaram os melhores resultados no geral, onde
o GKFDK-LP obteve o melhor desempenho entre todos, seguido do GKFDK-GP. O
algoritmo base GKFDK obteve o terceiro melhor desempenho, em relação à
maioria das métricas de avaliação.
Palavras-chave: Co-clustering; Funções kernel; Ponderação automática das
variáveis; Distâncias adaptativas; Agrupamento fuzzy.
Comentários desativados