Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado Nº 1.929
Aluno: JEFFERSON LUIZ PESSOA LIMA
Orientador: Prof. Paulo Salgado Gomes de Mattos Neto
Co-orientador: Prof. Fernando José Ribeiro Sales (Engenharia Biomédica/UFPE)
Título: ADVERSARIAL OVERSAMPLING: UM MÉTODO PARA BALANCEAMENTO BASEADO EM REDES NEURAIS ADVERSÁRIAS
Data: 29/09/2020
Hora/Local: 13h – Virtual – https://meet.google.com/ftg-vcva-osd
Banca Examinadora:
Prof. Cleber Zanchettin (UFPE / Centro de Informática)
Prof. Leandro Augusto da Silva (Universidade Presbiteriana Mackenzie / Faculdade de Computação e Informática )
Prof. Paulo Salgado Gomes de Mattos Neto (UFPE / Centro de Informática)
RESUMO:
O problema de aprendizagem utilizando bases de dados desbalanceadas é algo
frequente e afeta negativamente vários algoritmos de aprendizagem
supervisionada. Uma série de classificadores podem ficar enviesados quando
são treinados nessas condições, especializando-se somente nas classes com
maior quantidade de amostras, deixando de lado as classes minoritárias, as
quais podem ser mais importantes para o objetivo em questão. Esse problema
exige um esforço considerável de investigação e estudo para elaboração de
métodos. Como nem sempre é possível, ou viável, a coleta de novas amostras
da classe minoritária, os métodos para realização Oversampling têm sido
estudados para geração de amostras a partir das existentes. Utilizando as
Generative Adversarial Networks – GANs, as quais compõem o estado da arte
para geração de amostras sintéticas realistas, o presente trabalho propôs o
método Adversarial Oversampling – AO. O método proposto utiliza as
Auxiliary Classifier GANs – AC-GAN como rede adversária, para aprender a
distribuição das classes e gerar amostras sintéticas para balancear a base
de dados, concentrando-se na classe minoritária. Durante o treinamento do
AO, é dado uma maior atenção às amostras consideradas difíceis, utilizando
a própria rede adversária para determinar a dificuldade dessas amostras.
Com isso, o AO tenta gerar amostras mais significativas, que colaboram para
melhorar a região de fronteira do classificador em questão. As amostras
sintéticas geradas são filtradas utilizando o próprio Discriminador D, da
rede adversária, para que restem apenas amostras com aspectos realistas
pertencentes à classe minoritária. Como o presente trabalho lida com
imagens, a morfologia das amostras geradas é um bom fator para determinar a
qualidade das mesmas. Por isso, o primeiro experimento realizado teve como
objetivo observar a morfologia das amostras geradas pelo Oversampling, e
mostrou que o AO consegue gerar amostras com um aspecto visual mais fiel às
amostras originais, comparado aos métodos tradicionais de Oversampling. No
segundo experimento foi observado o aumento da taxa de acerto da classe
minoritária, à medida que são inseridas as amostras geradas pelo AO. Por
fim, no terceiro e último experimento, foram realizados comparativos entre
os métodos de Oversampling, observando o quão as amostras geradas
contribuem para o aumento na taxa de acerto do classificador. Esse
experimento foi repetido em seis bases de dados de imagens. Nos resultados
médios o AO foi superior em quatro das seis das bases, em até 4%. A exceção
ocorreu nas bases de dados Breast e XRay, nas quais se observou um
equilíbrio dos resultados. Com base nos experimentos realizados, pode-se
observar que o método proposto pode ser capaz de gerar amostras sintéticas,
balanceando a distribuição das classes e contribuindo no processo de
aprendizagem do classificador.
Palavras-chave: oversampling, desbalanceamento, redes neurais adversarias,
gan
Comentários desativados