Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado Nº 1.922

Aluno: Luís Fred Gonçalves de Sousa
Orientador: Prof.  Renato Vimieiro (DCC/UFMG – Professor Colaborador do Colegiado da PGCC/UFPE)
Título: Uso de Aprendizado Supervisionado Multivisão para Atribuição 
Automática de Autoria de Textos
Data: 20/08/2020
Hora/Local: 14h  – Virtual – https://meet.google.com/fkw-znox-vwx
Banca Examinadora:
Prof. George Darmiton da Cunha Cavalcanti (UFPE / Centro de Informática)
Prof. Anisio Mendes Lacerda (UFMG  / Departamento de Ciência da Computação)
Prof. Renato Vimieiro  (UFMG / Departamento de Ciência da Computação)


RESUMO:

Atribuição de autoria é o problema de identificar o autor de um ou mais 
textos com base no estilo de escrita do autor. Normalmente, a tarefa assume 
que o estilo de escrita dos autores conserva traços que são inacessíveis à 
manipulação consciente. Dessarte, tal poderia ser seguramente usado para 
identificar o autor de um texto. Os pesquisadores têm investigado um grande 
número de características textuais com o objetivo de validar a habilidade 
destas de revelar mecanismos subconscientes de variação de linguagem, os 
quais podem, consequentemente, refletir autoria. Muitos marcadores de 
estilo autorial já foram propostos na literatura. Não obstante, permanece a 
falta de consenso sobre qual é o melhor para representar as escolhas dos 
autores. Esta dissertação assume um ponto de vista neutro na disputa pelo 
melhor conjunto de características de texto capaz de representar estilos de 
escrita. No lugar disso, é investigado como diferentes fontes de informação 
podem relevar diferentes aspectos do estilo de um autor, complementando-se, 
assim, para aprimorar o processo geral de atribuição de autoria. Com esse 
propósito, o problema de atribuição de autoria é modelado nesse estudo como 
uma tarefa de aprendizado de máquina multivisão. A eficácia da abordagem 
proposta é avaliada em quatro conjuntos de dados com número variado de 
autores e obras. A performance do método é comparada ao estado da arte em 
abordagens de aprendizado de máquina para atribuição de autoria. No 
decorrer do estudo, foi analisado como o método multivisão aprimora as 
abordagens tradicionais que usam uma única fonte de informação para 
atribuir autoria, os quais foram chamados de métodos univisão. Os 
resultados confirmam a relevância de algumas características individuais de 
texto para a tarefa, mas também mostram como essas características se 
complementam com outros tipos de recursos linguísticos para melhorar a 
consistência e a precisão da atribuição de autoria. Ademais, foi verificado 
que os classificadores treinados com dados multivisão consistentemente 
concordam sobre os rótulos verdadeiros dos textos. O estudo ainda discute 
como essas melhorias, tanto na acurácia quanto na concordância de 
classificação, são benéficas para linguistas e outros especialistas.

Palavras-chave: atribuição de autoria; estilometria; categorização de 
textos; linguística computacional; aprendizagem de máquina supervisionada; 
aprendizagem multivisão; aprendizagem multimodal

Comentários desativados