Aprendizado por reforço profundo para navegação de robôs móveis
Resumo
Este trabalho apresenta um estudo de técnicas de aprendizado profundo usando a rede de Política
de Gradiente Determinística Profunda e a rede de Ator-Crítica Suave para a aplicação na
navegação de robô móveis. Para que o robô consiga chegar até um determinado alvo em um
mapa, as redes têm como entrada: 10 leituras do sensor laser, a velocidade linear e angular
anterior do robô, e a posição relativa e ângulo do robô móvel até o alvo. Como saída, as redes
têm a velocidade linear e angular. Dos resultados analisados, é possível concluir que os algoritmos
de aprendizado por reforço profundo, com ações contínuas, são efetivos para a tomada
de decisão de um veículo robótico, e que as redes de Ator-Crítica Suave apresentam resultados
superiores, em menos episódios, que as redes de Política de Gradiente Determinística Profunda.
Contudo, é necessário criar uma boa função de recompensa para que o agente inteligente consiga
realizar seus objetivos. Para mostrar o desempenho dos algoritmos de Aprendizado por
Reforço Profundo, foram aplicados os algoritmos nos experimentos com um robô simulado em
três ambientes diferentes e um robô real em dois ambientes.
Coleções
Os arquivos de licença a seguir estão associados a este item: