Pós-Graduação em Ciência da Computação – UFPE
Defesa de Tese de Doutorado Nº 677

Aluno: Luiz Gustavo da Rocha Charamba
Orientador: Prof.  Silvio de Barros Melo
Coorientador: Prof. Nivan Roberto Ferreira Junior
Título: Providing Projective and Affine Invariance for Recognition by 
Multi-Angle-Scale Vision Transformer
Data: 28/08/2025
Hora/Local: 14h – Virtual – Interessados em assistir entrar em contato com o aluno
Banca Examinadora:
Prof. Rafael Dueire Lins (UFPE / Centro de Informática)

Prof. Ricardo Martins de Abreu Silva (UFPE / Centro de Informática)
Prof. Manuel Menezes de Oliveira Neto (UFRGS /  Departamento de Informática Aplicada)
Prof. Sérgio de Carvalho Bezerra (UFPB / Centro de Informática)
Prof. João Marcelo Xavier Natario Teixeira (UFPE / Departamento de Eletrônica e Sistemas)


RESUMO:

O reconhecimento de formas 2D deformadas encontra aplicações em muitas áreas não relacionadas, como marketing, OCR e veículos autônomos. Um enorme esforço tem sido dedicado a isso na literatura, com base em abordagens geométricas diretas, embora com resultados ou desempenho limitados. Mais recentemente, muitas abordagens de aprendizado de máquina foram propostas com resultados satisfatórios somente quando quando a deformação é, na melhor das hipóteses, uma transformação afim fraca. Esta tese apresenta o MASViT, uma solução baseada em aprendizado profundo que supera os métodos mais avançados no reconhecimento de imagens deformadas por afinidades e projetividades. Um ponto crucial em nosso trabalho é a ausência de imagens deformadas por essas transformações durante a fase de treinamento. Nossa abordagem emprega filtros convolucionais 1D correspondentes a linhas retas que cruzam a forma no domínio polar, preservando a colinearidade, um invariante projetivo básico. Sequências angulares derivadas do domínio polar se integram bem à arquitetura ViT, pois esses patch embeddings são geometricamente coerentes, melhorando a adequação para o codificador de transformador. Também apresentamos várias técnicas de regularização para aumentar a generalização do modelo. Para validar a abordagem, selecionamos novos conjuntos de dados de teste derivados do conjunto de dados GTSRB (sinais de trânsito). Por meio de experimentos abrangentes, demonstramos que essa abordagem supera os modelos de última geração, especialmente ao lidar com imagens sujeitas a deformações afins e projetivas. 


Palavras-chave: Invariância Afim; Invariância Projetiva; Aprendizagem Profunda Geométrica; Transformador de Visão; Visão Computacional.   

Comentários desativados

Sobre este site

Portal institucional do Centro de Informática – UFPE

Encontre-nos

Endereço
Av. Jornalista Aníbal Fernandes, s/n – Cidade Universitária.
Recife-PE – Brasil
CEP: 50.740-560

Horário
Segunda–Sexta: 8:00–18:00