Pós-Graduação em Ciência da Computação – UFPE
Defesa de Tese de Doutorado Nº 657

Aluno: Marcos de Souza Oliveira
Orientador: Prof. Sergio Ricardo de Melo Queiroz
Coorientador: Prof. Francisco de Assis Tenorio de Carvalho
Título: Unsupervised Feature Selection and Deep Subspace Clustering for 
Exploratory High-Dimensional Cluster Analysis
Data: 03/02/2025
Hora/Local: 9h – Virtual – Interessado em assistir entrar em contato com o aluno
Banca Examinadora:
Prof. Cleber Zanchettin (UFPE / Centro de Informática)
Prof. Renata Maria Cardoso Rodrigues de Souza (UFPE / Centro de Informática)
Prof.  Adiel Teixeira de Almeida Filho (UFPE / Centro de Informática)
Prof. Byron Leite Dantas Bezerra (UPE / Escola Politécnica de PE)
Prof. Anne Magaly de Paula Canuto (UFRN / Depto. de Informática e Matemática Aplicada)

RESUMO:

Com o avanço das tecnologias da informação, a quantidade de dados disponíveis tem crescido rapidamente, trazendo desafios significativos para o armazenamento e processamento em termos de recursos computacionais. Esse crescimento ocorre tanto no número de exemplos quanto na quantidade de características que descrevem esses dados. Uma alternativa para lidar com esse cenário é realizar uma análise exploratória inicial a partir de um baixo volume de dados (small data analysis). Isso pode resultar não apenas na redução da quantidade de dados a serem processados, mas também na melhoria da qualidade desses dados durante o treinamento de algoritmos de aprendizado de máquina (AM). No entanto, apenas reduzir o número de exemplos, especialmente quando estes possuem alta dimensionalidade, configura o que se conhece como “maldição da dimensionalidade”. Esse fenômeno ocorre quando um pequeno número de exemplos é descrito por centenas ou milhares de características, tornando a análise ainda mais desafiadora. Nessas situações, o uso de técnicas de redução de dimensionalidade a partir de um número limitado de exemplos torna-se essencial para realizar uma análise mais eficiente e humanamente mais acessível, uma vez que permite a interpretação dos dados a partir de uma quantidade menor de exemplos e em uma baixa dimensionalidade. Diferentemente dos métodos convencionais de redução de dimensionalidade, como PCA, que geram novas características através de transformações no conjunto original de dados, os métodos não supervisionados de seleção de características, focam na identificação, sem necessitar de uma rotulagem prévia dos dados, das características mais relevantes. Isso possibilita uma maior interpretabilidade de padrões naturais dos dados. No entanto, existem situações em que os padrões ou clusters de dados se manifestam apenas em subconjuntos específicos de características, chamados de subespaços. Além disso, pode ocorrer que os dados originais não possuam características relevantes, exigindo, assim, a geração de novas características para a identificação desses subespaços. Neste sentido, esta pesquisa visa explorar duas maneiras de lidar com conjuntos de dados de alta dimensionalidade que possuem uma baixa quantidade de exemplos. O primeiro trabalho refere-se a uma nova abordagem de seleção de características não supervisionadas e o segundo propõe um método de agrupamento a partir de subespaços de dados. Para validar a eficácia dos métodos propostos, foram realizados experimentos em conjuntos de dados reais e sintéticos. Os resultados demonstraram que os métodos propostos tiveram um bom desempenho em comparação com outros métodos do estado-da-arte, conforme evidenciado pelas métricas de análise de cluster amplamente utilizadas. Testes estatísticos também foram realizados para fornecer um suporte mais forte aos resultados relatados.

Palavras-chave: Small Data Analysis, Dados de Alta Dimensionalidade, Maldição da di-mensionalidade, Seleção Não Supervisionada de Características, Agrupamento de Dados de Subespaços.

Comentários desativados

Sobre este site

Portal institucional do Centro de Informática – UFPE

Encontre-nos

Endereço
Av. Jornalista Aníbal Fernandes, s/n – Cidade Universitária.
Recife-PE – Brasil
CEP: 50.740-560

Horário
Segunda–Sexta: 8:00–18:00