Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado Nº 2.201

Aluna: Leilane Cruz Correia de Lima
Orientadora:  Profa. Patricia Cabral de Azevedo Restelli Tedesco
Título: Atenção, exclamação? Mineração de texto pela detecção estilística de fake news em dois idiomas
Data: 30/06/2025
Hora/Local: 14h – Sala E-113
Banca Examinadora:
Profa. Flavia de Almeida Barros (UFPE / Centro de Informática)
Prof. Paulo Faltay Filho  (UFPE / Comunicação Social)
Prof. Márcio Moretto Ribeiro  ( USP/ Escola de Artes, Ciências e Humanidades)

Profa. Patrícia Cabral de Azevedo Restelli Tedesco (UFPE / Centro de Informática)

RESUMO:

Ao ler um texto, um ser humano capta elementos estruturais que indicam sua funcionalidade: é um texto informativo? de humor? literário? Foi assim desde a consolidação da linguagem escrita e não há indícios de mudança neste caminho. Com a popularização da internet, ainda novos gêneros textuais, com outras funcionalidades, somaram-se à gama de funções possíveis para o texto escrito. Especificamente, desde 2016 notícias escritas com o objetivo de distorcer ou fabricar fatos vêm sendo publicadas e distribuídas de maneira sistemática dentro de estratégias de marketing político. Por isso, entende-se que as chamadas fake news são um gênero textual habitante do meio digital com origens analógicas, na forma notícia do jornalismo tradicional. Longe de ser um fenômeno inédito, ele se apresenta de forma renovada em um novo ambiente. Do jornal impresso para plataformas online, agora as notícias falsas são distribuídas em massa e precisam ser combatidas automaticamente com ferramentas computacionais. 
Nesse cenário, a tarefa de detecção de notícias falsas é complexa e vem sendo abordada crescentemente e por diversas estratégias. Este trabalho explora a mineração de texto como metodologia para entender as potencialidades de uma dessas estratégias, a detecção estilística. Volta-se o olhar para as consagradamente descartadas stopwords e pontuações, de modo que, ao caminhar junto aos dados com o auxílio das etapas da CRISP-DM, analisaremos a presença de conectivos e, por que não, das interrogações e exclamações tão típicas das fake news. Os experimentos usam modelos de aprendizagem clássica e ensemble, e incorporam os datasets Fake.br (em português) e ISOT (em inglês) representados por extratores de característica basedos em frequência (TF-IDF) e contextuais (XLM, XLM-RoBERTa, BERT). O TF-IDF é usado para computar diferentes tipos de “tokenização”, inclusas a BPE, SentencePiece e WordPiece, dos respectivos LLMs escolhidos. Os resultados obtidos indicam que explorar esta forma não-usual de pré-processamento e considerar diferentes tipos de “tokenização”e extração de características pode contribuir para a tarefa de detecção de fake news, pois, por ora, são textos que se adequam a ou se espelham na forma notícia jornalística.

Palavras-chave: Detecção estilística. Fake news. Pré-processamento. TF-IDF. LLMs. Mineração de Texto

Comentários desativados

Sobre este site

Portal institucional do Centro de Informática – UFPE

Encontre-nos

Endereço
Av. Jornalista Aníbal Fernandes, s/n – Cidade Universitária.
Recife-PE – Brasil
CEP: 50.740-560

Horário
Segunda–Sexta: 8:00–18:00