Pós-Graduação em Ciência da Computação – UFPE
Defesa de Tese de Doutorado Nº 606

Aluno: Sergio Fernandovitch Chevtchenko
Orientadora: Profa. Teresa Bernarda Ludermir
Título: Reinforcement Learning with Spiking Neural Networks
Data: 15/08/2023
Hora/Local: 7h:30m – Virtual – Interessados em assistir entrar em contato com o aluno
Banca Examinadora:

Prof. Cleber Zanchettin (UFPE / Centro de Informática)
Prof. Alexandre Marcireau (Western Sydney University / Centre for Neuromorphic Systems)
Prof. Saeed Afshar (Western Sydney University / Centre for Neuromorphic Systems)
Profa. Anna Helena Reali Costa (USP / Escola Politécnica)
Prof. Denis Deratani Mauá (USP / Instituto de Matemática e Estatística)


RESUMO:

Nos últimos anos, sistemas de inteligência artificial têm progredido de forma impressionante, mas ainda estão aquém de cérebros biológicos simples em termos de capacidades de controle e consumo de energia. As redes neurais de impulsos (SNNs) buscam emular a eficiência energética, velocidade de aprendizado e processamento temporal de cérebros biológicos. No entanto, no contexto de aprendizado por reforço (RL), as SNNs ainda ficam aquém das redes neurais tradicionais. O objetivo principal deste trabalho é aproximar em termos de desempenho os modelos SNN dos algoritmos de aprendizagem profunda por reforço (DRL) em tarefas específicas. Para isso, propomos novas arquiteturas que foram comparadas, tanto em termos de velocidade de aprendizado quanto de precisão final, com algoritmos DRL e abordagens RL tabulares clássicas.

Esta tese consiste em três etapas. A etapa inicial apresenta um modelo simples de uma rede de impulsos que aborda as limitações de escalabilidade de modelos relacionados em termos do espaço de estados. O modelo é avaliado em dois problemas clássicos de RL: grid-world e acrobot. Os resultados sugerem que o modelo proposto é comparável ao algoritmo tabular e a DRL, mantendo uma vantagem em termos de complexidade sobre o algoritmo DRL. Na segunda etapa, exploramos mais o modelo proposto, combinando-o com uma rede binária para extração de características. Uma rede neural convolucional (CNN) binária é pré-treinada em um conjunto de imagens RGB naturalistas e um conjunto separado de imagens é usado como observações em uma ambiente modificado de grid-world. Melhorias na arquitetura e na dinâmica são apresentadas para tratar esse problema mais complexo, com observações de imagens. Como antes, o modelo é comparado experimentalmente com algoritmos DRL do estado da arte. Além disso, experimentos complementares são fornecidos com objetivo de apresentar uma visão mais detalhada da conectividade e plasticidade entre diferentes camadas da rede. A terceira etapa desta tese apresenta uma nova arquitetura neuromórfica para resolver problemas de RL com observações de valores reais. O modelo proposto incorpora camadas de redução de dimensionalidade, com a adição de modulação por TD-error e eligibility traces, baseando-se em trabalhos anteriores. Um estudo adicional é focado em confirmar o impacto significativo desses componentes no desempenho do modelo proposto. O modelo supera consistentemente a abordagem tabular e descobre com sucesso políticas de controle estáveis nos ambientes mountain car, cart-pole e acrobot. Embora o modelo proposto não supere o PPO em termos de latência, ele oferece uma alternativa em termos de requisitos computacionais e de hardware: o modelo não requer um buffer de memória externo nem computação de gradiente de erro global. Além disso, as atualizações sinápticas ocorrem online, por meio de regras de aprendizado local e um sinal de erro global. A tese conclui apresentando limitações da pesquisa e sugestões de trabalhos futuros.


Palavras-chave: Aprendizagem por Reforço, STDP, Redes Neurais de Impulsos, FEAST, ODESA.

Comentários desativados

Sobre este site

Portal institucional do Centro de Informática – UFPE

Encontre-nos

Endereço
Av. Jornalista Aníbal Fernandes, s/n – Cidade Universitária.
Recife-PE – Brasil
CEP: 50.740-560

Horário
Segunda–Sexta: 8:00–18:00