Utilização de deep learning para reconhecimento de gestos com imagens do sensor Kinect nas bases de dados MSRC-12 e NTU RGB+D
Resumo
Este trabalho apresenta uma aplicação de redes neurais artificiais de aprendizagem profunda para reconhecimento de gestos através de imagens capturadas por um sensor Kinect. Para realizar o treinamento das redes neurais são utilizados dois conjuntos de dados: MSRC-12 e NTU RGB+D. Ambos os conjuntos de dados consistem em uma sequência de movimentos de articulações do corpo humano representados pelo esqueleto do sensor Kinect da Microsoft. Além disso, é utilizado o algoritmo FastDTW para normalização do número de frames dos dados. Na base de dados MSRC-12 são utilizados três métodos de extração de características das articulações: o método das coordenadas 3D, o método da normalização e o método da subtração. Na base de dados NTU RGB+D apenas o método das coordenadas 3D é utilizado e duas aplicações são propostas, a primeira utilizando 12 gestos da base de dados NTU RGB+D e a segunda utilizando 24 gestos da mesma base. Os dois conjuntos de dados foram submetidos a treinamentos em um modelo de rede neural convolucional e em um modelo de rede neural recorrente. O objetivo deste trabalho é verificar a assertividade dos modelos propostos e métodos de extração de características das articulações para reconhecimento de gestos. As bases de dados foram divididas em amostras de treinamento, validação e teste. A base de dados MSRC-12 apresentou acurácia superior a 80% utilizando os três métodos de extração de características das articulações na amostra de teste na rede neural convolucional e na rede neural recorrente. A base de dados NTU RGB+D apresentou acurácia de teste superior a 60% na aplicação utilizando 12 gestos, e superior a 55% na aplicação utilizando 24 gestos.
Coleções
Os arquivos de licença a seguir estão associados a este item: