Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado Nº 2.075
Aluno: Roberto Costa Fernandes
Orientadora: Profa. Edna Natividade da Silva Barros
Título: Embedded Object Detection and Position Estimation for RoboCup Small
Size League
Data: 15/03/2023
Hora/Local: 14h – Virtual – Interessados em assistir entrar em contato com o aluno
Banca Examinadora:
Prof. Cleber Zanchettin (UFPE / Centro de Informática)
Prof. Filipe Cordeiro Rolim (UFRPE / Departamento de Computação)
Prof. Edna Natividade da Silva Barros (UFPE / Centro de Informática)
RESUMO:
A categoria Small Size League (SSL) da RoboCup tem o desafio de aumentar o
nível de autonomia dos robôs para que eles possam realizar algumas tarefas
sem receber nenhuma informação externa. Para garantir essa autonomia o robô
tem que ser capaz de detectar e estimar a posição dos objetos no campo,
para que ele possa marcar gols e se movimentar sem colidir com outros
robôs. Modelos para detecção de objetos geralmente utilizam imagens
monoculares como entrada, no entanto é desafiante calcular a posição
relativa desses objetos, já que a imagem monocular não tem nenhuma
informação da distância. O principal objetivo dessa dissertação é propor um
sistema completo para detectar um objeto e calcular sua posição relativa no
campo, usando uma imagem monocular como entrada. O primeiro obstáculo para
treinar um modelo para detectar objetos em um contexto específico é ter um
dataset de treinamento com imagens anotadas. Outras categorias da RoboCup
já possuem dataset com imagens anotadas para treinar e avaliar um modelo.
Assim, esse trabalho também propõe um dataset para a categoria SSL para ser
usado como referência de comparação para detecção de objetos nessa
categoria. Utilizando esse dataset, esse trabalho apresenta um fluxo para
treinar, avaliar e realizar a inferência de uma Convolutional Neural
Networks (CNNs) para detecção de objetos em um sistema embarcado.
Combinando a detecção de objetos com a posição global recebida do
SSL-Vision, esse trabalho ainda propõe uma arquitetura baseada em
Multilayer Perceptron (MLP) para estimar a posição dos objetos usando
somente a imagem monocular como entrada. Na detecção de objetos, o modelo
MobileNet v1 SSD alcançou 55.77% AP para as três classes de interesse
rodando a 94 Frames Per Second (FPS) em um robô de SSL. O modelo para
estimar a posição de um objeto da classe Bola atingiu um Root Mean Square
Error (RMSE) de 34.88mm.
Palavras-chave: Estimação de posição. Apredizado profundo. Detecção de
objetos. Robótica. Visão Computacional
Comentários desativados