Utilização de deep learning para reconhecimento de gestos com imagens do sensor Kinect nas bases de dados MSRC-12 e NTU RGB+D

Peixoto, Júlia Schubert

dc.contributor.advisor	Gamarra, Daniel Fernando Tello
dc.creator	Peixoto, Júlia Schubert
dc.date.accessioned	2022-10-21T16:48:18Z
dc.date.available	2022-10-21T16:48:18Z
dc.date.issued	2021-02-11
dc.date.submitted	2021
dc.identifier.citation	PEIXOTO, J. S. Utilização de deep learning para reconhecimento de gestos com imagens do sensor Kinect nas bases de dados MSRC-12 e NTU RGB+D. 2021. 82 p. Trabalho de Conclusão de Curso (Graduação em Engenharia de Controle e Automação)- Universidade Federal de Santa Maria, Santa Maria, RS, 2021.	por
dc.identifier.uri	http://repositorio.ufsm.br/handle/1/26621
dc.description	Trabalho de conclusão de curso (graduação) - Universidade Federal de Santa Maria, Centro de Tecnologia, Curso de Engenharia de Controle e Automação, RS, 2021.	por
dc.description.abstract	This work presents an application of deep neural networks for gesture recognition through images captured by a Kinect sensor. In order to perform the training of neural networks, two datasets are used: MSRC-12 and NTU RGB + D. Both datasets consist of a sequence of human body joints movements represented by the skeleton of Microsoft's Kinect sensor. In addition, the FastDTW algorithm is used to normalize the number of data frames. In the MSRC-12 database, three methods of extracting joint characteristics are used: the 3D coordinate method, the normalization method and the subtraction method. In the NTU RGB + D database, only the 3D coordinate method is used. Both datasets were trained in a convolutional neural network model and in a recurrent neural network model. The objective of this work is to verify the assertiveness of the proposed models and joint coordinates features for gesture recognition. The databases were divided into samples of training, validation and testing. The MSRC-12 database showed accuracy greater than 80% using the three methods of extracting joint characteristics in the test sample in the convolutional neural network and in the recurrent neural network. The NTU RGB + D database showed test accuracy greater than 60% in the application using 12 gestures, and greater than 55% in the application using 24 gestures.	eng
dc.language	por	por
dc.publisher	Universidade Federal de Santa Maria	por
dc.rights	Acesso Aberto	por
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Reconhecimento de gestos	por
dc.subject	Aprendizagem profunda	por
dc.subject	Redes neurais convolucionais	por
dc.subject	Redes neurais recorrentes	por
dc.subject	Gesture recognition	eng
dc.subject	Deep learning	eng
dc.subject	Convolutional neural networks	eng
dc.subject	Recurrent neural networks	eng
dc.title	Utilização de deep learning para reconhecimento de gestos com imagens do sensor Kinect nas bases de dados MSRC-12 e NTU RGB+D	por
dc.title.alternative	Use of deep learning for gestures recognition through images from a Kinect sensor in MSRC-12 and NTU RGB+D data basis	eng
dc.type	Trabalho de Conclusão de Curso de Graduação	por
dc.degree.local	Santa Maria, RS, Brasil.	por
dc.degree.graduation	Engenharia de Controle e Automação	por
dc.description.resumo	Este trabalho apresenta uma aplicação de redes neurais artificiais de aprendizagem profunda para reconhecimento de gestos através de imagens capturadas por um sensor Kinect. Para realizar o treinamento das redes neurais são utilizados dois conjuntos de dados: MSRC-12 e NTU RGB+D. Ambos os conjuntos de dados consistem em uma sequência de movimentos de articulações do corpo humano representados pelo esqueleto do sensor Kinect da Microsoft. Além disso, é utilizado o algoritmo FastDTW para normalização do número de frames dos dados. Na base de dados MSRC-12 são utilizados três métodos de extração de características das articulações: o método das coordenadas 3D, o método da normalização e o método da subtração. Na base de dados NTU RGB+D apenas o método das coordenadas 3D é utilizado e duas aplicações são propostas, a primeira utilizando 12 gestos da base de dados NTU RGB+D e a segunda utilizando 24 gestos da mesma base. Os dois conjuntos de dados foram submetidos a treinamentos em um modelo de rede neural convolucional e em um modelo de rede neural recorrente. O objetivo deste trabalho é verificar a assertividade dos modelos propostos e métodos de extração de características das articulações para reconhecimento de gestos. As bases de dados foram divididas em amostras de treinamento, validação e teste. A base de dados MSRC-12 apresentou acurácia superior a 80% utilizando os três métodos de extração de características das articulações na amostra de teste na rede neural convolucional e na rede neural recorrente. A base de dados NTU RGB+D apresentou acurácia de teste superior a 60% na aplicação utilizando 12 gestos, e superior a 55% na aplicação utilizando 24 gestos.	por
dc.publisher.country	Brasil	por
dc.publisher.initials	UFSM	por
dc.subject.cnpq	CNPQ::ENGENHARIAS	por
dc.publisher.unidade	Centro de Tecnologia	por

Arquivos deste item

Nome:: license_rdf
Tamanho:: 805bytes
Formato:: application/rdf+xml

Visualizar/Abrir

Nome:: Peixoto_Julia_Schubert_2021_TCC.pdf
Tamanho:: 2.215Mb
Formato:: PDF
Descrição:: TCC de Graduação

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

TCC Engenharia de Controle e Automação [99]
Coleção de trabalhos de conclusão do Curso de Engenharia de Controle e Automação

Mostrar registro simples

Exceto quando indicado o contrário, a licença deste item é descrito como Acesso Aberto