Estudo publicado na Nature Communications analisa mais de 92 mil páginas de arquivos históricos para entender consolidação da área que estuda o DNA

A consolidação da genômica, ramo da biologia que estuda o conjunto completo de DNA, como um dos pilares da biomedicina moderna não é fruto apenas de descobertas isoladas, mas de uma complexa rede de cooperação institucional e fomento estratégico. Esta é a conclusão central do artigo acadêmico publicado em abril de 2026 na revista Nature Communications, que conta com a colaboração do professor Cleber Zanchettin do Centro de Informática (CIn) da UFPE. O texto está disponível para leitura no site da revista acadêmica.

O estudo “A digital archive reveals how a funding agency cooperated with academics to support the nascent field of genomics” utiliza técnicas avançadas de Inteligência Artificial (IA) e Ciência de Dados para analisar a trajetória do National Human Genome Research Institute (NHGRI). O órgão foi protagonista no Projeto Genoma Humano, marco científico global que produziu, em 2003, uma sequência genômica representando mais de 90% do genoma humano. Feito inédito até então.

A pesquisa publicada na Nature Communications parte de uma cooperação internacional iniciada  durante o período do professor Cleber como docente visitante na Northwestern University (Estados Unidos). O trabalho mobiliza uma equipe multidisciplinar para investigar um arquivo digital que reúne 22 mil documentos e 92 mil páginas de registros internos da Core Collection do NHGRI.

“A ideia parte de uma pergunta central: como uma agência pública de fomento consegue, na prática, cooperar com a comunidade científica para criar e consolidar uma nova área do conhecimento?”, explica o docente. O diferencial do estudo reside no acesso a esses bastidores, permitindo observar como decisões foram tomadas e como tecnologias fundamentais, como os estudos de associação genômica ampla (GWAS), foram viabilizadas por meio de políticas públicas. Demonstrando com as escolhas do instituto seguiam padrões científicos e organizacionais identificáveis, e não apenas critérios pontuais.

No artigo, o CIn-UFPE contribui com o conhecimento qualificado em IA, aprendizado de máquina, processamento de documentos e análise computacional em larga escala. A equipe interdisciplinar desenvolveu métodos computacionais para lidar com documentos sensíveis, incluindo segmentação de páginas, reconhecimento de entidades e mascaramento de informações pessoais para garantir o uso ético de IA e a privacidade. Os resultados revelam que modelos de aprendizado de máquina conseguem reconstruir decisões históricas sobre o sequenciamento de organismos com alto desempenho (AUROC* de 0,94).

Impacto social e futuro

Além do rigor acadêmico, a pesquisa gera impactos sociais ao oferecer subsídios para o desenho de políticas públicas em áreas emergentes, como a própria IA, a saúde digital e a medicina de precisão. O sucesso da genômica serve de modelo para entender como infraestruturas de pesquisa e práticas de ciência aberta podem transformar a sociedade.

O projeto tem continuidade prevista com a expansão da metodologia para outros arquivos governamentais e o aprimoramento dos modelos de IA para a leitura de manuscritos e documentos históricos complexos. O professor Cleber destaca que essa é uma área muito promissora porque muitos arquivos históricos ainda são subutilizados por serem grandes, heterogêneos e difíceis de analisar manualmente. Além disso, também é possível aplicar o tipo de abordagem utilizada no artigo para entender como outras áreas emergentes são construídas.

São também autores do artigo: Spencer S. Hong, Zachary Utz, Mohammad Hosseini, Heliodoro Tejedor Navarro, Kristi Holmes, Kris A. Wetterstrand, Sarah A. Bates, Luis A. Nunes Amaral, Christopher R. Donohue e Thomas Stoeger. Todos dos Estados Unidos, vinculados à Northwestern University ou ao NHGRI.

Para Cleber Zanchettin, o trabalho ressalta o papel da ciência de dados e o uso maduro de IA como ferramenta para compreender a própria organização da ciência e os caminhos que tornam uma área tecnologicamente transformadora. “Não se trata de aplicar algoritmos indiscriminadamente sobre dados sensíveis. Pelo contrário: a pesquisa combina capacidade computacional com governança, ética, curadoria humana e responsabilidade institucional. Essa combinação é essencial para o futuro da IA em arquivos, saúde, governo e ciência”.

*Do inglês, Area Under the Receiver Operating Characteristic Curve, é uma métrica de desempenho fundamental usada para avaliar modelos de classificação binária. Com variação de 0 a 1, em que 1 indica um classificador perfeito.

Comentários desativados

Sobre este site

Portal institucional do Centro de Informática – UFPE

Encontre-nos

Endereço
Av. Jornalista Aníbal Fernandes, s/n – Cidade Universitária.
Recife-PE – Brasil
CEP: 50.740-560

Horário
Segunda–Sexta: 8:00–18:00