Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado Nº 2.009
Aluno: Rodrigo Ludermir de Oliveira
Orientador: Prof. Cleber Zanchettin
Título: Detecção de Posicionamento em Tweets sobre Covid-19 no Brasil
utilizando métodos de Aprendizagem de Máquina
Data: 10/03/2022
Hora/Local: 13h – Virtual – Interessados em assistir entrar em contato com o aluno
Banca Examinadora:
Prof. Adriano Lorena Inácio de Oliveira (UFPE / Centro de Informática)
Prof. Renato Vimieiro (UFMG / Departamento de Ciência da Computação)
Prof. Cleber Zanchettin (UFPE / Centro de Informática)
RESUMO:
A onipresença da pandemia de Covid-19 durante os últimos dois anos
acarretou na urgência de ações responsivas contra o avanço da contaminação
do novo coronavírus e em estratégias de imunização da população, através de
políticas de saúde pública e medidas sanitárias preventivas por parte das
autoridades responsáveis e também da sociedade civil. No Brasil, de modo
semelhante a outros países, esse processo foi profundamente politizado,
suscitando discussões polarizadas que inundaram as redes sociais – ocupando
agora, mais do que nunca, diante do isolamento social, o centro das
discussões sociais e políticas – com opiniões e posicionamentos acerca das
medidas adotadas contra a Covid-19 e suas repercussões. Enquanto um
paradigma emergente no campo de mineração de opiniões nas redes sociais,
sistemas de detecção de posicionamento têm produzido resultados frutíferos.
Isso ocorre principalmente em aplicações que utilizam métodos de
Processamento de Linguagem Natural e Análise de Redes, sobretudo quando são
implementados para classificar o posicionamento de usuários e/ou textos
implicados em temas sociais e políticos. A tarefa de detecção de
posicionamentos, no entanto, alcança um maior desempenho quando os objetos
de classificação, sejam usuários ou textos, estão segmentados por um tópico
alvo sobre o qual os posicionamentos foram direcionados. Desse modo, esta
dissertação investiga a utilização de métodos de aprendizagem de máquina no
desenvolvimento de sistemas de detecção de posicionamento em Tweets –
publicações na rede social Twitter – de usuários brasileiros comentando as
medidas relacionadas ao Covid-19, exercidas por eles próprios e pelo
governo brasileiro em seus diferentes órgãos e níveis de atuação. O
trabalho envolve quatro partes principais: (1) Construção da base de dados,
na qual houve o levantamento de aproximadamente 6 milhões de Tweets e
Retweets em português que mencionam palavras relacionadas ao Covid-19 entre
Janeiro de 2020 e Outubro de 2021, das quais cerca de 350 mil Tweets foram
rotulados (pseudo-labels), através de métodos de anotação fraca (weak
supervision), em ‘favoráveis’ ou ‘contrários’ às medidas do governo federal
frente à pandemia. (2) Limpeza, análise exploratória e segmentação da base
rotulada por tópicos mais relevantes e frequentes: Vacinação, Lockdown,
Tratamento Precoce, Uso de Máscaras, CPI da Covid e atuação dos
Governadores e Prefeitos. (3) Avaliação de modelos tradicionais de
Aprendizagem de Máquina na detecção de posicionamentos. (4) Avaliação de
modelos de aprendizagem profunda, sobretudo Transformers, na mesma tarefa.
Uma arquitetura específica foi investigada em detalhes através de três
abordagens de aprendizagem distintas, mas complementares. Utilizando o
modelo de linguagem de domínio geral em português-brasileiro BERTimbau, que
segue a arquitetura base do BERT, foram realizados experimentos com: (1)
adaptação de domínio, usando os dados não rotulados; (2) uso de dados
relacionais dos usuários (rede de interações – retweets, mentions e
replies); (3) Aprendizado via Multi-tasking, realizando o ajuste-fino em
todos os tópicos ao mesmo tempo. Os experimentos realizados demonstraram
que os modelos inicializados usando BERTimbau e treinados combinando as
três abordagens citadas acima se sobressaem sobre os demais em seu
desempenho diante da variedade de tópicos relacionados ao Covid-19 no
contexto brasileiro.
Palavras-chave: Detecção de Posicionamento; Processamento de Linguagem
Natural; Aprendizagem de Máquina; Redes Sociais; Covid-19
Comentários desativados