Pós-Graduação em Ciência da Computação – UFPE
Defesa de Tese de Doutorado Nº 610

Aluno: Laura María Palomino Mariño
Orientador: Prof. Francisco de Assis Tenorio de Carvalho
Título: Batch SOM algorithms for dissimilarity data
Data: 01/09/2023
Hora/Local: 13h – Virtual – Interessados em assistir entrar em contato com a aluna
Banca Examinadora:
Prof. Cleber Zanchettin (UFPE /  Centro de Informática)
Prof. Hansenclever de Franca Bassani (UFPE / Centro de Informática)
Prof. Leandro Maciel Almeida (UFPE / Centro de Informática)

Prof. Renato Fernandes Corrêa (UFPE / Departamento de Ciência da Informação)
Prof. Renato Vimieiro (UFMG / Departamento de Ciência da Computação)


RESUMO:

Atualmente, relativamente poucos algoritmos SOM são capazes de gerenciar dados relacionais, apesar da sua utilidade. Esta pesquisa propõe quatro novas famílias de algoritmos para dados relacionais: três novos métodos estão disponíveis para lidar com dados relacionais representados por uma matriz de dissimilaridade (visão única), e oito métodos para lidar com dados relacionais representados por várias matrizes de dissimilaridade (múltiplas visões). Os algoritmos são projetados para fornecer partições exclusivas (crisp) preservando as propriedades topológicas dos dados no mapa. Os algoritmos implementaram quatro enfoques de representantes de clusters: A família BSOM-MMdd apresenta métodos SOM que consideram os representantes do cluster como vetores de pesos cujos componentes medem como os objetos são ponderados como medoid em um determinado cluster. A dimensionalidade do vetor de pesos é a mesma do conjunto de dados analisado. Em RBSOM, cada representante do cluster é uma combinação linear normalizada dos objetos representados no espaço de descrição. Já na família BSOM-CWMdd, o representante de cluster é um conjunto de objetos ponderados cuja cardinalidade é fixa, sendo a mesma para todos os clusters. Esses pesos são computados de acordo com a relevância de cada objeto para o referido cluster. Finalmente, na família BSOM-ACWMdd, o representante é um vetor de objetos ponderados selecionados de acordo com sua relevância para o referido cluster. Portanto, a dimensionalidade dos representantes do cluster se adapta ao conjunto de dados analisado, muda a cada iteração do algoritmo e pode diferir de um cluster para outro. Além disso, os algoritmos multi-view são projetados para aprender o peso de relevância de cada matriz de dissimilaridade. Nesses métodos, os pesos de relevância mudam em cada iteração e pode ser diferente de um cluster para outro nos mapas. Opeso representa a relevância de cada matriz de dissimilaridade sendo computada localmente para cada cluster, ou globalmente para a partição toda, de modo que cada matriz tenha uma influência diferente no mapeamento. Todos os algoritmos propostos foram comparados com os métodos mais relacionados disponíveis para lidar com uma ou várias matrizes de dissimilaridade. Experimentos em 12 conjuntos de dados single-view e 14 multi-view são realizados por meio de uma parametrização semelhante levando em consideração às métricas Informação Mútua Normalizada (NMI), Erro Topográfico (TE) e Silhueta (SIL). Na maioria dos casos, os algoritmos BSOM-ACWMdd tiveram o melhor desempenho em relação à NMI e SIL, enquanto os algoritmos RBSOM são os melhores em termos de TE. A significância estatística dos resultados fornecidos pelos experimentos foi avaliada usando o teste não paramétrico de Friedman em conjunto com o pós-teste de Nemenyi. Os experimentos nos conjuntos de dados multi-view mostraram a importância de levar em conta os pesos de relevância das matrizes de dissimilaridade. Além disso, foram aplicados os modelos nos conjuntos de dados Ecoli e Dermatology. Os algoritmos propostos agruparam os dados menos representados com maior qualidade do que os outros modelos.


Palavras-chave: Mapas Auto-Organizáveis; SOM em Lotes; Dados de dissimilaridade; Medoides ponderados; Aprendizado à partir de várias visões

Comentários desativados

Sobre este site

Portal institucional do Centro de Informática – UFPE

Encontre-nos

Endereço
Av. Jornalista Aníbal Fernandes, s/n – Cidade Universitária.
Recife-PE – Brasil
CEP: 50.740-560

Horário
Segunda–Sexta: 8:00–18:00