Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado Nº 2.083
Aluno: José Matheus Lacerda Barbosa
Orientador: Prof. Luciano de Andrade Barbosa
Título: Improving Binary Classifiers on Imbalanced Data Using Large
Language Models
Data: 12/07/2023
Hora/Local: 9h – Virtual – Interessados em assistir entrar em contato com o aluno
Banca Examinadora:
Prof. Tsang Ing Ren (UFPE / Centro de Informática)
Prof. Cláudio de Souza Baptista(UFCG / Departamento de Sistemas e Computação)
Prof. Luciano de Andrade Barbosa (UFPE / Centro de Informática)
RESUMO:
Em tarefas de classificação do mundo real, é comum lidarmos com dados desbalanceados. Neste trabalho, propomos o BALANCE, um framework que gera dados sintéticos para a classe minoritária para balancear conjuntos de dados textuais para classificação
binária. Ele faz isso usando o aprendizado baseado em prompt. Mais eficiente, o BALANCE otimiza os parâmetros de decodificação de um determinado modelo de linguagem
para produzir texto adaptado à classe minoritária. Em seguida, ele usa um prompt específico para gerar as instâncias usando o modelo de linguagem otimizado. Realizamos
uma extensa avaliação experimental usando três conjuntos de dados desbalanceados de
classificação de texto do mundo real. Os resultados mostram que o BALANCE supera as
abordagens que lidam com criação/desbalanceamento de dados na maioria dos cenários,
confirmando a alta qualidade das instâncias geradas.
Palavras-chave: Aumento de Dados. Aprendizado por Indução. Balanceamento de
Dados. Grandes Modelos de Linguagem
Comentários desativados