Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado Nº 1.972


Aluno: DANIEL CIRNE VILAS-BOAS DOS SANTOS
Orientador: Prof. Cleber Zanchettin
Título: Estudo comparativo entre abordagens estilométricas e textuais para 
atribuição de autoria em trabalhos escolares
Data: 13/08/2021
Hora/Local: 8:30h – Virtual – Interessados em assistir entrar em contato com o aluno
Banca Examinadora:
Profa. Flávia de Almeida Barros (UFPE / Centro de Informática)
Prof. George Gomes Cabral (UFRPE / Departamento de Estatística e Informática)
Prof. Cleber Zanchettin (UFPE / Centro de Informática)


RESUMO:

O aumento no volume de documentos digitais associado ao seu uso em várias 
áreas de conhecimento demandam recursos computacionais para sua compreensão 
e análise. Em casos de verificação ou atribuição de autoria, é necessário 
confirmar ou identificar os autores do texto. A literatura propõe 
promissoras abordagens que associam aprendizagem de máquina e processamento 
de linguagem natural para distinguir os autores pelo seu estilo de escrita. 
Estes trabalhos envolvem majoritariamente contextos literários ou 
jornalísticos e textos em inglês. Por outro lado, no contexto educacional, 
poucos trabalhos exploram a análise de autoria como ferramenta de apoio à 
verificação de aprendizagem dentro da língua portuguesa. Tal cenário é 
desafiador, pois apresenta um baixo volume de documentos por autor, um 
conjunto de autores mais homogêneos e restrições de formato, tema e idioma. 
Este trabalho explora técnicas e abordagens reconhecidas na literatura, 
como modelos de aprendizagem de máquina, técnicas para representação de 
documentos e extração de características estilométricas, com propósito de 
apoiar a análise de autoria em uma base de dados composta por atividades 
pedagógicas de estudantes de graduação. Devido ao volume de exemplos, 
utilizamos bases de dados jornalísticas mais robustas como referência. Por 
meio dos experimentos, foi verificado que em domínios restritos, 
representações baseadas em características de estilo são superiores à 
abordagens meramente textuais, que sofrem maior influência do tópico em 
corpora mais abrangente. Este trabalho revelou que o modelo Extremelly 
Randomized Trees foi superior aos demais modelos, como Naive Bayes, SVM, 
Random Forest, Regressão logística, Redes neurais em todas as bases 
utilizadas, alcançando uma média de 0.70 na taxa de acerto e AUC 0.81. Além 
disso, o trabalho detalha sua metodologia para extração de características 
de estilo por meio do processamento de linguem natural e quais destas mais 
se destacaram durante os experimentos de acordo com seus valores Shapley.

Palavras-chave: Estilometria. Atribuição de autoria. Classificação de 
atividades pedagógicas. Extração de features estilométricas.

Comentários desativados