dc.contributor.advisor | Gamarra, Daniel Fernando Tello | |
dc.creator | Peixoto, Júlia Schubert | |
dc.date.accessioned | 2022-10-21T16:48:18Z | |
dc.date.available | 2022-10-21T16:48:18Z | |
dc.date.issued | 2021-02-11 | |
dc.date.submitted | 2021 | |
dc.identifier.citation | PEIXOTO, J. S. Utilização de deep learning para reconhecimento de gestos com imagens do sensor Kinect nas bases de dados MSRC-12 e NTU RGB+D. 2021. 82 p. Trabalho de Conclusão de Curso (Graduação em Engenharia de Controle e Automação)- Universidade Federal de Santa Maria, Santa Maria, RS, 2021. | por |
dc.identifier.uri | http://repositorio.ufsm.br/handle/1/26621 | |
dc.description | Trabalho de conclusão de curso (graduação) - Universidade Federal de Santa Maria, Centro de Tecnologia, Curso de Engenharia de Controle e Automação, RS, 2021. | por |
dc.description.abstract | This work presents an application of deep neural networks for gesture recognition through images captured by a Kinect sensor. In order to perform the training of neural networks, two datasets are used: MSRC-12 and NTU RGB + D. Both datasets consist of a sequence of human body joints movements represented by the skeleton of Microsoft's Kinect sensor. In addition, the FastDTW algorithm is used to normalize the number of data frames. In the MSRC-12 database, three methods of extracting joint characteristics are used: the 3D coordinate method, the normalization method and the subtraction method. In the NTU RGB + D database, only the 3D coordinate method is used. Both datasets were trained in a convolutional neural network model and in a recurrent neural network model. The objective of this work is to verify the assertiveness of the proposed models and joint coordinates features for gesture recognition. The databases were divided into samples of training, validation and testing. The MSRC-12 database showed accuracy greater than 80% using the three methods of extracting joint characteristics in the test sample in the convolutional neural network and in the recurrent neural network. The NTU RGB + D database showed test accuracy greater than 60% in the application using 12 gestures, and greater than 55% in the application using 24 gestures. | eng |
dc.language | por | por |
dc.publisher | Universidade Federal de Santa Maria | por |
dc.rights | Acesso Aberto | por |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.subject | Reconhecimento de gestos | por |
dc.subject | Aprendizagem profunda | por |
dc.subject | Redes neurais convolucionais | por |
dc.subject | Redes neurais recorrentes | por |
dc.subject | Gesture recognition | eng |
dc.subject | Deep learning | eng |
dc.subject | Convolutional neural networks | eng |
dc.subject | Recurrent neural networks | eng |
dc.title | Utilização de deep learning para reconhecimento de gestos com imagens do sensor Kinect nas bases de dados MSRC-12 e NTU RGB+D | por |
dc.title.alternative | Use of deep learning for gestures recognition through images from a Kinect sensor in MSRC-12 and NTU RGB+D data basis | eng |
dc.type | Trabalho de Conclusão de Curso de Graduação | por |
dc.degree.local | Santa Maria, RS, Brasil. | por |
dc.degree.graduation | Engenharia de Controle e Automação | por |
dc.description.resumo | Este trabalho apresenta uma aplicação de redes neurais artificiais de aprendizagem profunda para reconhecimento de gestos através de imagens capturadas por um sensor Kinect. Para realizar o treinamento das redes neurais são utilizados dois conjuntos de dados: MSRC-12 e NTU RGB+D. Ambos os conjuntos de dados consistem em uma sequência de movimentos de articulações do corpo humano representados pelo esqueleto do sensor Kinect da Microsoft. Além disso, é utilizado o algoritmo FastDTW para normalização do número de frames dos dados. Na base de dados MSRC-12 são utilizados três métodos de extração de características das articulações: o método das coordenadas 3D, o método da normalização e o método da subtração. Na base de dados NTU RGB+D apenas o método das coordenadas 3D é utilizado e duas aplicações são propostas, a primeira utilizando 12 gestos da base de dados NTU RGB+D e a segunda utilizando 24 gestos da mesma base. Os dois conjuntos de dados foram submetidos a treinamentos em um modelo de rede neural convolucional e em um modelo de rede neural recorrente. O objetivo deste trabalho é verificar a assertividade dos modelos propostos e métodos de extração de características das articulações para reconhecimento de gestos. As bases de dados foram divididas em amostras de treinamento, validação e teste. A base de dados MSRC-12 apresentou acurácia superior a 80% utilizando os três métodos de extração de características das articulações na amostra de teste na rede neural convolucional e na rede neural recorrente. A base de dados NTU RGB+D apresentou acurácia de teste superior a 60% na aplicação utilizando 12 gestos, e superior a 55% na aplicação utilizando 24 gestos. | por |
dc.publisher.country | Brasil | por |
dc.publisher.initials | UFSM | por |
dc.subject.cnpq | CNPQ::ENGENHARIAS | por |
dc.publisher.unidade | Centro de Tecnologia | por |