Uso de linguagem natural para consulta de informações dos microdados do Censo Escolar brasileiro

Antoni, Marco

dc.creator	Antoni, Marco
dc.date.accessioned	2021-11-29T17:20:35Z
dc.date.available	2021-11-29T17:20:35Z
dc.date.issued	2021-03-31
dc.identifier.uri	http://repositorio.ufsm.br/handle/1/23051
dc.description.abstract	The accelerated growth of the data obtained and stored has been observed for many years, motivating a growing investigation for new forms of querying, enabling other ways to query information that is useful in several knowledge domains. In this sense, Question Answering (QA) is a specialized area of Information Retrieval, whose objective is to obtain precise and direct answers that satisfy the user’s need for information, given a question expressed in Natural Language (NL). For this task, a set of Natural Language Processing (NLP) techniques are applied for understanding human language. Although NLP has maturity in some languages (such as English), this research area presents numerous challenges, due to the difficulty of NL understanding caused by use of words that have similar meanings, slang/regional terms, incorrect spelling, or ambiguity. Moreover, in the Portuguese language, there is still a research gap, possibly motivated by the complexity that Portuguese language present in comparison to other languages. Thus, this research presents an exploratory study on the NLP applied to QA systems, and for that, a QA system was designed and developed for querying information from open data of Brazilian Educational Census, which is the largest and most important statistical research performed by Anísio Teixeira National Institute of Educational Studies and Research. The presented system applies a hybrid approach to understand the meaning of the question, i.e., it combines the linguistic and rule-based approaches, which are manually constructed based on the data dictionary and current educational legislation. The results of the evaluation carried out with Education professionals suggest the ease of use of the QA system, in addition to the importance of the tool for querying information in this data set. However, there are still many difficulties related to the NLP itself, and particularities related to the educational data set used.	eng
dc.language	por	por
dc.publisher	Universidade Federal de Santa Maria	por
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Sistemas de perguntas e respostas	por
dc.subject	Processamento de linguagem natural	por
dc.subject	Dados abertos	por
dc.subject	Censo escolar	por
dc.subject	Question answering systems	eng
dc.subject	Natural language processing	eng
dc.subject	Open data	eng
dc.subject	Brazilian educational census	eng
dc.title	Uso de linguagem natural para consulta de informações dos microdados do Censo Escolar brasileiro	por
dc.title.alternative	Use of natural language for querying microdata from brazilian Educational Census	eng
dc.type	Dissertação	por
dc.description.resumo	O crescimento acelerado dos dados produzidos e armazenados tem sido observado há vários anos, motivando uma busca crescente por novas formas de consulta, possibilitando outras formas de buscar informações que sejam úteis em várias áreas do conhecimento. Nesse sentido, os sistemas de Perguntas e Respostas (SPR) se constituem como uma área especializada da Recuperação da Informação, cujo objetivo consiste na obtenção de respostas precisas e diretas, e que satisfaçam a necessidade de informação do usuário, dada uma pergunta expressa em Linguagem Natural (LN). Para isso, são aplicados um conjunto de técnicas de Processamento de Linguagem Natural (PLN) que buscam a compreensão da linguagem humana. Apesar do PLN apresentar maturidade em alguns idiomas (como o inglês), essa área de pesquisa apresenta inúmeros desafios, devido a dificuldade de compreensão da LN em razão do uso de palavras que tenham significados semelhantes, gírias/termos regionais, escrita incorreta ou ambiguidade. Além disso, na língua portuguesa, ainda existe uma lacuna de pesquisa, possivelmente motivada pela complexidade que a língua portuguesa apresenta em relação a outros idiomas. Desse modo, esta pesquisa apresenta um estudo exploratório sobre o PLN aplicado aos SPRs, e para isso, foi planejado e desenvolvido um SPR para consulta de informações provenientes dos dados abertos do Censo Escolar brasileiro, que trata-se da maior e mais importante pesquisa estatística realizada pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. O sistema apresentado utiliza uma abordagem híbrida para compreender o sentido da pergunta, isto é, combina as abordagens linguística e baseada baseada em regras, estas construídas manualmente baseando-se no dicionário dos dados e legislação educacional vigente. Os resultados da avaliação realizada junto a profissionais da área da educação sugerem a facilidade do uso de um SPR, além da importância da ferramenta para consulta dessas informações nesse conjunto de dados, no entanto, ainda são encontradas uma série de dificuldades relacionadas ao PLN propriamente dito, além de particularidades relativas ao conjunto de dados educacionais usado.	por
dc.contributor.advisor1	Charao, Andrea Schwertner
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/8251676116103188	por
dc.contributor.referee1	Lima, Joao Carlos Damasceno
dc.contributor.referee2	Del Fabro, Marcos Didonet
dc.creator.Lattes	http://lattes.cnpq.br/2219319121452170	por
dc.publisher.country	Brasil	por
dc.publisher.department	Ciência da Computação	por
dc.publisher.initials	UFSM	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação	por
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	por
dc.publisher.unidade	Centro de Tecnologia	por

Arquivos deste item

Nome:: license_rdf
Tamanho:: 805bytes
Formato:: application/rdf+xml

Visualizar/Abrir

Nome:: DIS_PPGCC_2021_ANTONI_MARCO.pdf
Tamanho:: 2.697Mb
Formato:: PDF
Descrição:: Dissertação de Mestrado

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Programa de Pós-Graduação em Ciência da Computação [146]
Coleção de dissertações de Pós-Graduação em Ciência da Computação

Mostrar registro simples

Exceto quando indicado o contrário, a licença deste item é descrito como Attribution-NonCommercial-NoDerivatives 4.0 International