Pós-Graduação em Ciência da Computação – UFPE
Defesa de Tese de Doutorado Nº 623

Aluno: Dayvid Welles de Castro Oliveira
Orientador: Prof. Cleber Zanchettin
Coorientador: Prof. Byron Leite Dantas Bezerra UPE / Escola Politécnica de Pernambuco
Título: An End-to-End Approach for Handwriting Recognition: From
Handwritten Text Lines to Complete Manuscripts
Data: 25/03/2024
Hora/Local: 9h – Centro de Informática – Auditório Bloco B

Banca Examinadora:
Prof. George Darmiton da Cunha Cavalcanti (UFPE / Centro de Informática)
Prof. Tsang Ing Ren (UFPE / Centro de Informática)
Prof. Adriano Lorena Inácio de Oliveira (UFPE / Centro de Informática)
Prof. Luiz Eduardo Soares de Oliveira (UFPR / Departamento de Informática)
Prof. Alceu de Souza Britto Júnior (PUC-PR / Centro de Ciências Exatas e de Tecnologia)

RESUMO:

Esta tese investiga modelos inovadores para o Reconhecimento de Texto
Manuscrito (em inglês, Handwritten Text Recognition ou HTR), abordando a
complexidade de transcrever imagens de documentos manuscritos para texto
digital. A tarefa de HTR tem sido um tópico central de pesquisa no campo de
análise e reconhecimento de documentos ao longo das últimas décadas e
permanece um desafio atual com contínuos estudos que buscam otimizar os
sistemas de reconhecimento. Essa tarefa evoluiu seguindo uma tendência de
remover restrições e suposições no processo de reconhecimento. Os primeiros
estudos se limitavam ao reconhecimento de caracteres ou dígitos, e hoje
existem soluções capazes de lidar com uma página manuscrita completa. Como
resultado dessa tendência, o Reconhecimento de Documentos Manuscritos
surgiu como uma tarefa desafiadora que integra o reconhecimento de texto e
informações de layout para reconhecer manuscritos de ponta a ponta. Este
trabalho apresenta como primeira contribuição o modelo Octave Convolutional
Recurrent Neural Network para reconhecer linhas isoladas de texto, que está
em consonância com o estado da arte em reconhecimento de linhas enquanto
reduz os requisitos computacionais. Ainda assim, a solução inicial requer
imagens de linhas pré-segmentadas, que nem sempre estão disponíveis.
Portanto, a segunda contribuição explora o reconhecimento de documentos
manuscritos livre de segmentação através do DANCER, um modelo inovador que
melhora a eficiência computacional enquanto mantém acurácia robusta. O
modelo se distingue das abordagens existentes com sua estrutura única
encoder-decoder, onde o encoder reduz a redundância espacial e melhora a
atenção espacial, e o decoder, um modelo Transformer, decodifica o texto de
maneira eficiente usando operações de atenção otimizadas. Este design
resulta em um modelo eficiente capaz de transcrever e compreender
documentos manuscritos com layouts complexos. A eficácia do DANCER foi
avaliada em um conjunto de dados históricos desafiador, considerando o
reconhecimento de documentos de uma e duas páginas. Dentre os benefícios do
DANCER identificados nos experimentos, destacam-se sua eficiência de
memória, escalabilidade para documentos mais longos, além de apresentar
treinamento e inferência mais rápidos que modelos anteriores. Este trabalho
não apenas avança o estado da arte em HTR, mas define bases para futuras
explorações em sistemas de reconhecimento de documentos manuscritos.

Palavras-chave: Escrita. Reconhecimento de Texto Manuscrito. Reconhecimento
de Documentos Manuscritos. Redes Neurais Profundas.

Comentários desativados

Sobre este site

Portal institucional do Centro de Informática – UFPE

Encontre-nos

Endereço
Av. Jornalista Aníbal Fernandes, s/n – Cidade Universitária.
Recife-PE – Brasil
CEP: 50.740-560

Horário
Segunda–Sexta: 8:00–18:00