07/06: Defesa de Dissertação de Mestrado Nº 2.024

6 jun

Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado Nº 2.024

Aluno: Mateus Gonçalves Machado
Orientador: Prof. Hansenclever de França Bassani
Título: DyLam: A Dynamic Reward Weighting Method for Reinforcement Learning
Policy Gradient Algorithms
Data: 07/06/2022
Hora/Local: 16h – Virtual – interessados em assistir entrar em contato com o aluno
Banca Examinadora:
Prof. Tsang Ing Ren (UFPE / Centro de Informática)
Prof. Anna Helena Reali Costa (USP / Departamento de Engenharia de Computação e Sistemas Digitais)
Prof. Hansenclever de França Bassani (UFPE / Centro de Informática)

RESUMO:

Aprendizagem por Reforço (AR) é um subcampo emergente de Aprendizagem de
Máquina no qual um agente interage com um ambiente e aproveita suas
experiências para aprender, por tentativa e erro, quais ações são as mais
adequadas para cada estado.
A cada passo o agente recebe um sinal de recompensa positivo ou negativo,
que é o principal feedback utilizado para o aprendizado.
A AR encontra aplicações em diversas áreas, como robótica, bolsa de valores
e até mesmo em sistemas de refrigeração, apresentando desempenho
sobre-humano no aprendizado de jogos de tabuleiro (Xadrez e Go) e
videogames (jogos de Atari, Dota2 e StarCraft2).
No entanto, os métodos AR ainda lutam em ambientes com recompensas escassas.
Por exemplo, um agente pode receber poucas recompensas por gols em um jogo
de futebol. Assim, é difícil associar recompensas (gols) com ações.
Os pesquisadores frequentemente introduzem várias recompensas
intermediárias para ajudar no aprendizado e contornar esse problema. No
entanto, combinar adequadamente várias recompensas para compor o sinal de
recompensa único usado pelos métodos AR frequentemente não é uma tarefa
fácil.
Este trabalho visa resolver este problema específico através da introdução
do DyLam. Ele estende os métodos de gradiente de política existentes
decompondo a função de recompensa usada no ambiente e ponderando
dinamicamente cada componente em função do desempenho do agente na tarefa
associada.
Provamos a convergência do método proposto e mostramos empiricamente que
ele supera métodos concorrentes nos ambientes avaliados em termos de
velocidade de aprendizado e, em alguns casos, desempenho final.

Palavras-chave: Aprendizagem por Reforço; Reward shaping; Recompensas
esparsas; Aprendizagem Profunda.

Comentários desativados

Endereço

Av. Jornalista Anibal Fernandes, s/n, Cidade Universitária (Campus Recife)

CEP: 50740-560

Recife/PE

Acompanhe o CIn-UFPE em todas as redes sociais

CONTATO

+ 55 81 2126-8430

contato@cin.ufpe.br

07/06: Defesa de Dissertação de Mestrado Nº 2.024

Sobre este site

Encontre-nos

Endereço

CONTATO