Pós-Graduação em Ciência da Computação – UFPE
Defesa de Tese de Doutorado Nº 543


Aluna: Sara Inés Rizo Rodríguez
Orientador: Prof.  Francisco de Assis Tenório de Carvalho
Título: Clustering algorithms with new automatic variables weighting
Data: 21/02/2022
Hora/Local: 14h – Virtual – Interessados em assistir entrar em contato com a aluna
Banca Examinadora:

Prof. Cleber Zanchettin  (UFPE / Centro de Informática)
Prof. Paulo Salgado Gomes de Mattos Neto  (UFPE / Centro de Informática)
Prof. Tsang Ing Ren  (UFPE / Centro de Informática)
Prof. Heloísa de Arruda Camargo (UFSCar/ Departamento de Computação)
Prof. Vinicius Layter Xavier (UERJ) / Departamento de Engenharia de Sistemas e Computação)

RESUMO:

Todos os dias, uma grande quantidade de informações é armazenada ou representada como dados para posterior análise e gerenciamento. A análise de dados desempenha um papel indispensável na compreensão de diferentes fenômenos. Um dos meios vitais de lidar com esses dados é classificá-los ou agrupá-los em um conjunto de categorias ou grupos. O agrupamento ou análise de agrupamento visa dividir uma coleção de itens de dados em grupos, dada uma medida de similaridade. O agrupamento tem sido usado em vários campos, como processamento de imagens, mineração de dados, reconhecimento de padrões e análise estatística. Geralmente, os métodos de agrupamento lidam com objetos descritos por variáveis de valor real. No entanto, essa representação é muito restritiva para representar dados complexos, como listas, histogramas ou mesmo intervalos. Além disso, em alguns problemas, muitas dimensões são irrelevantes e podem mascarar os grupos existentes, por exemplo, os grupos podem existir em diferentes subconjuntos das variáveis. Este trabalho enfoca a análise de agrupamento de dados descritos por variáveis de valor real e de valor de intervalo. Nesse sentido, novos algoritmos de agrupamento de subespaço flexível foram propostos, nos quais a correlação e a relevância das variáveis são consideradas para melhorar o desempenho. No caso de dados com valor de intervalo, assumimos que a importância dos limites das variáveis com valor de intervalo pode ser a mesma ou pode ser diferente para o processo de agrupamento. Como os métodos baseados em regularização são robustos à inicializações, as abordagens propostas introduzem um termo de regularização para controlar o grau de pertinência dos objetos aos grupos. Essas regularizações são populares devido ao alto desempenho no agrupamento de dados em grande escala e baixa complexidade computacional. Esses algoritmos iterativos de três etapas fornecem uma partição difusa, um representante para cada grupo, e o peso de relevância das variáveis ou sua correlação, minimizando uma função objetivo adequada. Experimentos com conjuntos de dados sintéticos e reais corroboram a robustez e utilidade dos métodos de agrupamento propostos.

Palavras-chave: Agrupamento particional, Distâncias adaptativas, 
Agrupamento robusto, Análise de dados intervalares, Métodos baseados em regularização.

Comentários desativados