Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado Nº 2.055
Aluno: Paulo Martins Monteiro
Orientador: Prof. Roberto Souto Maior de Barros
Título: Propostas de métodos baseados em Co-op training para aprendizado
semi-supervisionado em fluxos contínuos de dados
Data: 28/10/2022
Hora/Local: 10h – Virtual – Interessados em assistir entrar em contato com o aluno
Banca Examinadora:
Prof. Roberto Souto Maior de Barros (UFPE / Centro de Informática)
Prof. Paulo Maurício Gonçalves Júnior (IFPE / Campus Recife)
Prof. Rodolfo Carneiro Cavalcante (UFAL/Campus Arapiraca)
RESUMO:
No contexto de fluxo contínuo de dados, no qual os dados são gerados em
tempo real, é comum a existência de dados sem rótulos, por exemplo, devido
ao alto custo para rotulá-los. Para lidar com estes dados, estão sendo
propostas estratégias de aprendizagem semi-supervisionadas em que são
utilizados dados rotulados e não rotulados ao mesmo tempo. Outro desafio
típico dos fluxos contínuos de dados é a presença das chamadas mudanças de
conceito (concept drift): neste cenário, a distribuição dos dados muda com
o tempo, o que causa uma diminuição da precisão das classificações. Essa
dissertação apresenta três novos métodos baseados na técnica de Co-op
training, nos quais são utilizados dois classificadores que cooperam entre
si para realizar predições em fluxos contínuos de dados. Estes algoritmos
foram adaptados com o objetivo de obter uma melhor acurácia de
classificação quando comparados ao método original e aos seus concorrentes.
O primeiro método proposto é o Co-op training V2, uma versão menos rigorosa
do método original; o segundo é o Co-op training V3, que utiliza apenas o
grau de confiança de ambos os classificadores para rotular dados sem
rótulo; e o último é o Co-op Training V4, que também utiliza apenas o grau
de confiança na rotulação de dados, tendo o treinamento de ambos os
classificadores como principal diferença para o V3. Os métodos propostos
foram comparados aos algoritmos disponíveis no MOA-SS, a extensão do
Massive Online Analysis (MOA) framework que foi utilizada para realizar os
testes. Os experimentos utilizaram bases de dados artificiais e reais,
tanto em conjuntos de dados sem mudanças de conceito quanto em cenários com
mudanças de conceito. Finalmente, analisamos quais algoritmos se saíram
melhor em cada um dos cenários testados, incluindo a avaliação estatística
dos resultados.
Palavras-chave: Fluxo contínuo de dados, Classificação, Aprendizado
semi-supervisionado, Mudanças de conceito, Rotulação de dados.
Comentários desativados