Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado Nº 1.972
Aluno: DANIEL CIRNE VILAS-BOAS DOS SANTOS
Orientador: Prof. Cleber Zanchettin
Título: Estudo comparativo entre abordagens estilométricas e textuais para
atribuição de autoria em trabalhos escolares
Data: 13/08/2021
Hora/Local: 8:30h – Virtual – Interessados em assistir entrar em contato com o aluno
Banca Examinadora:
Profa. Flávia de Almeida Barros (UFPE / Centro de Informática)
Prof. George Gomes Cabral (UFRPE / Departamento de Estatística e Informática)
Prof. Cleber Zanchettin (UFPE / Centro de Informática)
RESUMO:
O aumento no volume de documentos digitais associado ao seu uso em várias
áreas de conhecimento demandam recursos computacionais para sua compreensão
e análise. Em casos de verificação ou atribuição de autoria, é necessário
confirmar ou identificar os autores do texto. A literatura propõe
promissoras abordagens que associam aprendizagem de máquina e processamento
de linguagem natural para distinguir os autores pelo seu estilo de escrita.
Estes trabalhos envolvem majoritariamente contextos literários ou
jornalísticos e textos em inglês. Por outro lado, no contexto educacional,
poucos trabalhos exploram a análise de autoria como ferramenta de apoio à
verificação de aprendizagem dentro da língua portuguesa. Tal cenário é
desafiador, pois apresenta um baixo volume de documentos por autor, um
conjunto de autores mais homogêneos e restrições de formato, tema e idioma.
Este trabalho explora técnicas e abordagens reconhecidas na literatura,
como modelos de aprendizagem de máquina, técnicas para representação de
documentos e extração de características estilométricas, com propósito de
apoiar a análise de autoria em uma base de dados composta por atividades
pedagógicas de estudantes de graduação. Devido ao volume de exemplos,
utilizamos bases de dados jornalísticas mais robustas como referência. Por
meio dos experimentos, foi verificado que em domínios restritos,
representações baseadas em características de estilo são superiores à
abordagens meramente textuais, que sofrem maior influência do tópico em
corpora mais abrangente. Este trabalho revelou que o modelo Extremelly
Randomized Trees foi superior aos demais modelos, como Naive Bayes, SVM,
Random Forest, Regressão logística, Redes neurais em todas as bases
utilizadas, alcançando uma média de 0.70 na taxa de acerto e AUC 0.81. Além
disso, o trabalho detalha sua metodologia para extração de características
de estilo por meio do processamento de linguem natural e quais destas mais
se destacaram durante os experimentos de acordo com seus valores Shapley.
Palavras-chave: Estilometria. Atribuição de autoria. Classificação de
atividades pedagógicas. Extração de features estilométricas.
Comentários desativados