Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado Nº 2.160

Aluno: Elisson Lima Gomes da Silva
Orientador: Prof. Stefan Michael Blawid
Título: Multi-Head Attention Classifier Trained on Protein-level for
Detecting Viruses Infecting Cassava from Short Sequencing Reads
Data: 13/09/2024
Hora/Local: 14:30 – Virtual – Interessados em assistir entrar em contato com o aluno
Banca Examinadora:
Prof. Cleber Zanchettin (UFPE / Centro de Informática)
Profa. Ana Maria Benko Iseppon (UFPE / Departamento de Genética)
Prof. Stefan Michael Blawid (UFPE / Centro de Informática)

RESUMO:

Este estudo aplica redes neurais artificiais (RNAs) para classificar leituras de dados de sequenciamento de alto rendimento (HTS), com foco específico na detecção de vírus em plantas de mandioca (Manihot esculenta Crantz). Doenças virais representam ameaças significativas à saúde das culturas e à produção de alimentos, e a mandioca, uma cultura crucial para a segurança alimentar e aplicações industriais no Brasil e globalmente, não é exceção. As pipelines tradicionais de bioinformática para a descoberta de vírus baseiam-se principalmente em métodos de alinhamento, que se tornam cada vez mais caros em termos computacionais à medida que o volume de dados genômicos de referência cresce. Metodologias sem alinhamento (AF), especialmente aquelas baseadas na análise de k-mers, oferecem uma alternativa promissora, mas muitas vezes enfrentam desafios relacionados à interpretabilidade e à demanda por memória. Para enfrentar esses desafios, propomos um modelo de classificador de atenção multi-head projetado para detectar infecções virais em amostras metagenômicas no nível proteico. Este modelo, treinado para uma planta hospedeira específica, aproveita o mecanismo de atenção para melhorar a extração de características das distribuições de k-mers. Essa abordagem permite uma codificação mais dependente do contexto das leituras de sequenciamento, melhorando a classificação das sequências genéticas curtas típicas dos dados de HTS. Além disso, implementamos uma pipeline fitossanitária de última geração na cloud da Amazon Web Services (AWS) para avaliar o desempenho do nosso modelo proposto. O modelo alcançou 95% de precisão durante o treinamento, filtrando efetivamente milhões de leituras do hospedeiro e de outros organismos, retendo apenas leituras virais. Essa redução substancial na demanda computacional para a identificação de novos vírus destaca a eficiência da nossa abordagem. Nossos resultados demonstram que modelos de deep learning, particularmente aqueles que empregam o mecanismo de atenção, podem classificar eficientemente sequências virais em leituras curtas, reduzindo significativamente os custos computacionais associados aos métodos tradicionais de AF. Este trabalho avança na análise genética e na bioinformática, oferecendo um método mais preciso e eficiente para a classificação de leituras de HTS na descoberta de patógenos
em plantas.

Palavras-chave: Virômica de plantas, Classificação metagenômica, Deep Learning, Multi-head Attention, Métodos livres de alinhamento.

Comentários desativados

Sobre este site

Portal institucional do Centro de Informática – UFPE

Encontre-nos

Endereço
Av. Jornalista Aníbal Fernandes, s/n – Cidade Universitária.
Recife-PE – Brasil
CEP: 50.740-560

Horário
Segunda–Sexta: 8:00–18:00