Pós-Graduação em Ciência da Computação – UFPE
Defesa de Tese de Doutorado Nº 551

Aluno: Davi Hirafuji Neiva
Orientador: Prof. Cleber Zanchettin
Título: Tradução entre línguas de sinais utilizando Deep Learning
Data: 11/03/2022
Hora/Local: 13h – Virtual – Interessados em assistir entrar em contato com o aluno.
Banca Examinadora:

Prof. Adriano Lorena Inácio de Oliveira (UFPE/Centro de Informática)
Prof. Leandro Maciel Almeida (UFPE / Centro de Informática)

Prof. João Fausto Lorenzato de Oliveira (UPE / Escola Politécnica de PE)
Prof. André Câmara Alves do Nascimento (UFRPE / Departamento de Computação)
Prof. Francisco Carlos Monteiro Souza( UTFPR / Coordenação de Engenharia de Software)


RESUMO:

A linguagem de sinais é a forma de expressão usada por pessoas surdas para se comunicar. É com o movimento do corpo, especialmente as mãos, que uma pessoa surda consegue se expressar. Contudo, as línguas de sinais não são universais, isso quer dizer que uma pessoa surda Alemã não poderá se comunicar adequadamente com uma pessoa surda Brasileira, por exemplo. Soluções baseadas em software utilizam aprendizagem de máquina para reconhecer gestos e traduzir de língua falada e escrita para outra, mas trabalhos que combinem esses algoritmos visando uma tradução entre língua de sinais não são frequentes. Nesta pesquisa, propomos o sAIgns, uma plataforma colaborativa web e móvel para tradução entre línguas de sinais. Utilizando a câmera do celular para capturar vídeos de uma pessoa fazendo um gesto em uma língua de sinais, o usuário poderá visualizar o gesto correspondente na sua língua de sinais materna. Nós utilizamos uma combinação de algoritmos de Deep Learning, tais como Mask R-CNN, CNN e Transformers para realizar remoção de plano de fundo, extração de características, reconhecimento de sinais e tradução. Nós propomos ainda uma abordagem de reconhecimento de sentenças em língua de sinais utilizando um conjunto de dados de palavras. Além disso, propomos uma webpage para hospedar diferentes línguas de sinais, visualizar sinais individualmente ou em sentenças e criar máscaras customizadas para as mãos. Utilizando duas bases públicas de sinais (base alemã PHOENIX-14T e base Libras V-Librasil) nossa abordagem apresentou uma melhora de WER de 4% na base PHOENIX-14T e enquanto na V-Librasil, conseguimos um WER de 21.7% e 5% para palavras e sentenças respectivamente.

Palavras-chave: Gesture recognition. Deep Learning. Translation between  gestures. Artificial neural networks.

Comentários desativados