Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado Nº 2.084
Aluno: Carlos Henrique do Nascimento Melo
Orientador: Prof. Leandro Maciel Almeida
Título: Análise de sentimentos de postagens em português na pandemia de
COVID-19 utilizando redes de codificadores automáticos
Data: 19/07/2023
Hora/Local: 9h -Virtual – Interessados em assistir entrar em contato com o aluno
Banca Examinadora:
Prof. Luciano de Andrade Barbosa (UFPE / Centro de Informática)
Prof. João Fausto Lorenzato de Oliveira (UPE / Escola Politécnica de PE)
Prof. Leandro Maciel Almeida (UFPE / Centro de Informática)
RESUMO:
A pandemia da Corona Virus Disease 2019 (COVID-19) impulsionou um aumento
no número de interações em redes sociais, através de postagens, em virtude
das medidas não farmacológicas implementadas durante o período de 2020 e
2021. Essa maior conexão da população com as diversas plataformas
propiciaram uma grande quantidade de conteúdos textuais relacionados à
vivência dos usuários nos períodos de surto da doença. Muitas dessas
postagens apresentam um caráter opinativo, no qual indica a possibilidade
de um estudo acerca dos sentimentos expressados pelos usuários das redes
sociais. Desse modo, a utilização de técnicas da área de Processamento de
Linguagem Natural (PLN) em conjunto com modelos da Aprendizagem de Máquina
(AM) fornecem uma análise de sentimentos através de classificadores
automáticos. Porém, é visto em estudos anteriores que a tarefa de Análise
de Sentimentos (AS) sofre da maldição da dimensionalidade (CHEN, 2009),
pois os métodos principais de transformar conteúdo textual em informação
útil recaem sobre vetores de grande dimensionalidade. Em pesquisas mais
recentes, o uso de técnicas de redes neurais têm sido utilizadas como
método de redução da dimensionalidade para a classificação de sentimentos
(GHOSH; RAVI; RAVI, 2016; KIM; LEE, 2020; YILDIRIM, 2020). Dentre as
técnicas, os Codificadores Automáticos (CA) (do inglês autoencoders) surgem
como uma proposta já utilizada para redução de dados de imagem e áudio,
pois processa vetores desses conteúdos e os reduz para diferentes
propósitos. A utilização das RNN para redução possibilita construir um novo
vetor contendo uma grande proporção da informa- ção contida no vetor
original para realizar o treinamento dos modelos. Portanto, este trabalho
apresenta como objetivo explorar a técnica de CA para redução da
dimensiona- lidade de vetores produzidos por técnicas de incorporação de
palavras sobre dois corpus textuais na língua portuguesa, coletados através
da rede social Twitter. Baseado nisso foi visto que os codificadores
conseguem manter até 90% da informação e qualidade contida no treinamento,
podendo ser observado uma diferença de pouco menos de 10% na acurácia dos
modelos treinados sem a técnica. Além disso, é observado que custo
computacional envolvido no treinamento dos modelos apresentaram uma redução
em comparação aos classificadores treinados com o vetor original e aos
modelos mais recentes, como LSTM e BERT, apresentando uma diferença de
tempo de até 96%. Assim, mostra que a partir dos resultados obtidos através
da técnica de redução por codificadores automáticos são pro- duzidas
qualidades equiparáveis aos modelos mais utilizados que realizam essa
codificação de forma conjunta para a língua portuguesa. Desse modo,
possibilita o uso de modelos mais custosos para a validação de resultados e
uso de predição.
Palavras-chave: Análise de sentimentos; Codificadores automáticos; Comitê
de classificadores; Classificação de múltiplas classes; COVID-19.
Comentários desativados