Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado Nº 2.254
Aluno: Francisco Evangelista Nobre Filho
Orientador: Prof. Rafael Dueire Lins
Título: Evaluating the correctness and performance of AI-generated
benchmarks
Data: 18/12/2025
Hora/Local: 14h – Virtual – Interessados em assistir entar em contato com o aluno
Banca Examinadora:
Prof. Paulo Henrique Monteiro Borba (UFPE / Centro de Informática)
Prof. Francisco Heron de Carvalho Júnior (UFC / Departamento de Computação)
Prof. Rafael Dueire Lins (UFPE / Centro de Informática)
RESUMO:
Large Language Models (LLMs) são amplamente utilizados na geração de código, seja auxiliando desenvolvedores na criação de novas funcionalidades, em testes de software, em otimizações, etc. Portanto, é de suma importância avaliar o desempenho de códigos gerados por LLMs, para entender o quão bem os assistentes de IA conseguem apoiar o desenvolvimento de software, bem como se eles podem superar códigos produzidos por humanos. Este trabalho apresenta um estudo empírico que analisa a corretude e o tempo de execução de códigos gerados por LLMs em comparação com soluções desenvolvidas por humanos, utilizando 10 benchmarks do conjunto de dados The Computer Language Benchmarks Game (CLBG), que avalia diversos aspectos das soluções propostas. Cinco assistentes de IA (ChatGPT, Claude, Copilot, DeepSeek e Gemini) foram utilizados nesta pesquisa, que também introduz o uso do modo Think Before Responding e utiliza como entrada combinações das técnicas zero-shot e role play da Engenharia de Prompts, dando origem a quatro entradas. Os resultados evidenciam que os assistentes de IA nem sempre geram códigos corretos, às vezes levando a problemas de compilação e outras vezes a resultados incorretos (alucinações). Além disso, o tempo de execução pode, em alguns casos, ser próximo, mas raramente melhor do que as soluções desenvolvidas por humanos e fornecidas no CLBG.
Palavras-chave: Assistente de Código, Benchmarking de Linguagens de Programação, Corretude, Desempenho, Modelo de Linguagem em Grande Escala.
Comentários desativados