Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado Nº 2.251
Aluno: Marcos Gabriel Pereira da Paz
Orientador: Prof. Luciano de Andrade Barbosa
Título: SciCheck: Reasoning Distillation for Biomedical Claim Verification
Data: 02/12/2025
Hora/Local: 9h – Auditório – Bloco B
Banca Examinadora:
Prof. Tsang Ing Ren (UFPE / Centro de Informática)
Prof. Rafael Ferreira Leite de Mello (UFRPE / Departamento de Computação)
Prof. Luciano de Andrade Barbosa (UFPE / Centro de Informática)
RESUMO:
Alegações falsas sobre informações médicas podem gerar consequências graves. Embora Modelos de Linguagem de Grande Escala (LLMs) já tenham sido aplicados à verificação desse tipo de alegação, seu desempenho depende diretamente do acesso a conteúdo relevante e de capacidades sólidas de raciocínio. Grande parte dos estudos anteriores pressupõe o uso de evidências de referência durante a inferência ou recorre a estratégias de escalonamento dispendiosas e intensivas em recursos computacionais. Entretanto, essas abordagens apresentam limitações em cenários reais de verificação, nos quais as evidências relevantes são difíceis de localizar e a eficiência é um fator determinante. Para enfrentar esse desafio, propomos o SciCheck, uma abordagem inovadora que combina a recuperação de evidências na web com um processo de destilação de raciocínio. Nosso método realiza o ajuste fino de um modelo de linguagem de pequeno porte a partir de trajetórias de raciocínio gerados por um LLM. O processo de destilação envolve uma etapa de preparação dos dados que evita vazamentos de informação e seleciona apenas as trajetórias de raciocínio que levam a respostas corretas. Além disso, o treinamento combina evidências da web e de referência para aprimorar a robustez do modelo, enquanto a avaliação é conduzida exclusivamente com recuperação de evidências na web. Realizamos uma avaliação experimental abrangente em diversos conjuntos de dados de verificação de alegações. Os resultados demonstram que o SciCheck supera abordagens concorrentes e modelos proprietários, como o Gemini 2.5 Flash, na maioria dos cenários, apresentando ao mesmo tempo menor custo computacional.
Palavras-chave: Verificação de Alegações. Destilação de Raciocínio. Geração Aumentada por Recuperação. Modelos de Linguagem de Grande Escala.
Comentários desativados