Pós-Graduação em Ciência da Computação – UFPE
Defesa de Tese de Doutorado Nº 663

Aluno: Natacha Targino Rodrigues Simões Brasileiro
Orientadora: Profa. Ana Carolina Salgado
Coorientadora:  Profa. Damires Yluska de Souza Fernandes (IFPB )
Título: Uso de Dados de Proveniência em Pipelines de Aprendizado de Máquina: Um Caso de Uso com Seleção de Atributos.
Data: 27/02/2025
Hora/Local: 9h  – Virtual – Interessados em assistir entrar em contato com a aluna
Banca Examinadora:
Prof. Fernando da Fonseca de Souza (UFPE / Centro de Informática)
Prof. Marcelo Iury de Sousa Oliveira (UFPB / Centro de Informática)
Prof. Diego Ernesto Rosa Pessoa (IFPB / Unidade Acadêmica de Informática)
Prof. Dimas Cassimiro do Nascimento Filho (UFAPE / Unidade Acadêmica de Garanhuns)
Profa. Andrêza Leite de Alencar  (UFRPE / Departamento de Computação)

RESUMO:

Com o aumento exponencial dos dados e o desenvolvimento de sistemas inteligentes baseados em Aprendizado de Máquina (AM), surgem novas oportunidades e desafios. A eficácia desses sistemas depende da compreensão dos princípios do AM, principalmente na utilização de algoritmos supervisionados, que aprendem a partir de dados rotulados para realizar tarefas de previsão. Nesse contexto, dados de proveniência oferecem uma oportunidade de rastrear e entender decisões feitas durante as execuções anteriores de pipelines de AM, promovendo a transparência e rastreabilidade desses processos. Embora a literatura explore o uso de dados de proveniência em AM, sua aplicação em atividades de seleção de atributos ainda é pouco explorada, apesar do potencial para automatizar ajustes e melhorar a avaliação dos modelos. O presente trabalho propõe uma abordagem focada em dados de proveniência de execuções de pipelines de AM, com o objetivo explorar o papel desses dados na reexecução e ajuste de atividades de seleção de atributos em pipelines de aprendizado de máquina. 
Especificamente, investigam-se duas questões de pesquisa: (1) como dados de proveniência podem promover a reexecução de atividades de pipelines  de AM em futuras execuções, e (2) como esses dados podem contribuir para melhorar a atividade de seleção de atributos, ajustando o modelo de AM com base em execuções passadas. A solução apresentada envolve a captura de dados de proveniência durante a execução de pipelines de AM e a estruturação semântica desses dados usando uma extensão da ontologia PROV(W3C). A estruturação visa otimizar a reutilização das informações para ajustar e melhorar a avaliação dos modelos de AM. A abordagem permite ajustar a seleção de atributos com base em execuções anteriores, promovendo o aprimoramento contínuo do modelo. Para avaliar a proposta, foi desenvolvido um protótipo que automatiza a captura, organização e utilização dos dados de proveniência. Através de experimentos considerando diferentes tarefas para o treinamento de modelos de AM, foi observado que a aplicação desses ajustes, com base em dados de proveniência, resultou em melhorias nas métricas de acurácia e F1-Score avaliadas sobre os modelos de AM gerados. 
Os resultados dos experimentos indicam que a utilização dos dados de proveniência contribui para otimizar o processo de treinamento, especialmente ao considerar a reexecução e ajuste das atividades. Entre as principais contribuições deste trabalho destacam-se a definição da ontologia PROVX, que permite a modelagem e o gerenciamento de dados de proveniência em pipelines de AM, e a proposição de uma estratégia que facilita o aprimoramento dos modelos com base nos dados de execuções anteriores.

Palavras-chave: Aprendizado de Máquina, Dados de Proveniência, Seleção de Atributos, Ontologias.

Comentários desativados

Sobre este site

Portal institucional do Centro de Informática – UFPE

Encontre-nos

Endereço
Av. Jornalista Aníbal Fernandes, s/n – Cidade Universitária.
Recife-PE – Brasil
CEP: 50.740-560

Horário
Segunda–Sexta: 8:00–18:00