Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado Nº 2.089
Aluno: Diógenes Wallis de França Silva
Orientadora: Profa. Veronica Teichrieb
Coorientador: Prof. João Paulo Silva do Monte Lima (UFRPE/Departamento de Computação)
Título: Unsupervised Multi-View Multi-Person 3D Pose Estimation
Data: 28/07
Hora/Local: 8h – Virtual – Interessados em assistir entrar em contato com o aluno
Banca Examinadora:
Prof. Cleber Zanchettin (UFPE / Centro de Informática)
Prof. Diego Gabriel Francis Thomas (Kyushu University / Department of Advanced Information Technology)
Profa. Veronica Teichrie b(UFPE / Centro de Informática)
RESUMO:
O problema da estimativa de pose 3D de múltiplas pessoas em cenários de
múltiplas visualizações tem sido um desafio contínuo em visão
computacional. A maioria dos métodos de estado da arte para estimativa de
pose 3D atualmente depende de técnicas supervisionadas, que exigem uma
grande quantidade de dados rotulados para o treinamento. No entanto, gerar
anotações 3D precisas é caro, consome tempo e está sujeito a erros.
Portanto, foi proposta uma abordagem nova que não requer dados rotulados
para estimativa de pose 3D. A abordagem proposta, a abordagem não
supervisionada de múltiplas visualizações e múltiplas pessoas, utiliza um
método de varredura de planos para gerar estimativas de pose 3D. Essa
abordagem define uma visualização como alvo e as demais como visualizações
de referência. Primeiramente, a profundidade de cada esqueleto 2D na
visualização alvo é estimada para obter as poses 3D. Em seguida, em vez de
comparar as poses 3D com as poses verdadeiras, as poses 3D calculadas são
projetadas nas visualizações de referência. As projeções 2D são, então,
comparadas com as poses 2D obtidas usando um método pronto para uso. Por
fim, as poses 2D do mesmo pedestre obtidas a partir das visualizações alvo
e de referência são comparadas para avaliação. O processo de comparação é
baseado em pontos de referência para identificar as poses 2D
correspondentes e compará-las com as respectivas projeções. Para melhorar a
precisão da abordagem proposta, foi introduzida uma nova perda de
reprojeção baseada na norma $L_1$ suave. Essa função de perda considera os
erros nas poses 3D estimadas e nas projeções nas visualizações de
referência. Ela foi testada no conjunto de dados público Campus para
avaliar a eficácia da abordagem proposta. Os resultados mostram que a
abordagem proposta alcança maior precisão do que os métodos não
supervisionados de estado da arte, com uma melhoria de 0,5 ponto percentual
em relação ao melhor sistema geométrico. Além disso, o método proposto
supera alguns métodos supervisionados de estado da arte e alcança
resultados comparáveis com a melhor abordagem supervisionada, com apenas
uma diferença de 0,2 ponto percentual. Em conclusão, a proposta abordagem
não supervisionada em um cenário com múltiplas vistas e múltiplas pessoas é
um método promissor para a estimativa de pose 3D. Sua capacidade de gerar
estimativas de pose 3D precisas sem depender de dados rotulados a torna
valiosa para a visão computacional.
Palavras-chave: Estimação de poses humanas em 3D. Aprendizado não
supervisionado. Aprendizado profundo. Erro de reprojeção.
Comentários desativados