dc.creator | Antoni, Marco | |
dc.date.accessioned | 2021-11-29T17:20:35Z | |
dc.date.available | 2021-11-29T17:20:35Z | |
dc.date.issued | 2021-03-31 | |
dc.identifier.uri | http://repositorio.ufsm.br/handle/1/23051 | |
dc.description.abstract | The accelerated growth of the data obtained and stored has been observed for many years,
motivating a growing investigation for new forms of querying, enabling other ways to query
information that is useful in several knowledge domains. In this sense, Question Answering
(QA) is a specialized area of Information Retrieval, whose objective is to obtain precise and
direct answers that satisfy the user’s need for information, given a question expressed in Natural
Language (NL). For this task, a set of Natural Language Processing (NLP) techniques
are applied for understanding human language. Although NLP has maturity in some languages
(such as English), this research area presents numerous challenges, due to the difficulty of
NL understanding caused by use of words that have similar meanings, slang/regional terms,
incorrect spelling, or ambiguity. Moreover, in the Portuguese language, there is still a research
gap, possibly motivated by the complexity that Portuguese language present in comparison to
other languages. Thus, this research presents an exploratory study on the NLP applied to QA
systems, and for that, a QA system was designed and developed for querying information from
open data of Brazilian Educational Census, which is the largest and most important statistical
research performed by Anísio Teixeira National Institute of Educational Studies and Research.
The presented system applies a hybrid approach to understand the meaning of the question, i.e.,
it combines the linguistic and rule-based approaches, which are manually constructed based
on the data dictionary and current educational legislation. The results of the evaluation carried
out with Education professionals suggest the ease of use of the QA system, in addition to the
importance of the tool for querying information in this data set. However, there are still many
difficulties related to the NLP itself, and particularities related to the educational data set used. | eng |
dc.language | por | por |
dc.publisher | Universidade Federal de Santa Maria | por |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.subject | Sistemas de perguntas e respostas | por |
dc.subject | Processamento de linguagem natural | por |
dc.subject | Dados abertos | por |
dc.subject | Censo escolar | por |
dc.subject | Question answering systems | eng |
dc.subject | Natural language processing | eng |
dc.subject | Open data | eng |
dc.subject | Brazilian educational census | eng |
dc.title | Uso de linguagem natural para consulta de informações dos microdados do Censo Escolar brasileiro | por |
dc.title.alternative | Use of natural language for querying microdata from brazilian Educational Census | eng |
dc.type | Dissertação | por |
dc.description.resumo | O crescimento acelerado dos dados produzidos e armazenados tem sido observado há vários
anos, motivando uma busca crescente por novas formas de consulta, possibilitando outras formas
de buscar informações que sejam úteis em várias áreas do conhecimento. Nesse sentido,
os sistemas de Perguntas e Respostas (SPR) se constituem como uma área especializada da
Recuperação da Informação, cujo objetivo consiste na obtenção de respostas precisas e diretas,
e que satisfaçam a necessidade de informação do usuário, dada uma pergunta expressa em
Linguagem Natural (LN). Para isso, são aplicados um conjunto de técnicas de Processamento
de Linguagem Natural (PLN) que buscam a compreensão da linguagem humana. Apesar do
PLN apresentar maturidade em alguns idiomas (como o inglês), essa área de pesquisa apresenta
inúmeros desafios, devido a dificuldade de compreensão da LN em razão do uso de palavras
que tenham significados semelhantes, gírias/termos regionais, escrita incorreta ou ambiguidade.
Além disso, na língua portuguesa, ainda existe uma lacuna de pesquisa, possivelmente motivada
pela complexidade que a língua portuguesa apresenta em relação a outros idiomas. Desse modo,
esta pesquisa apresenta um estudo exploratório sobre o PLN aplicado aos SPRs, e para isso, foi
planejado e desenvolvido um SPR para consulta de informações provenientes dos dados abertos
do Censo Escolar brasileiro, que trata-se da maior e mais importante pesquisa estatística
realizada pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. O sistema
apresentado utiliza uma abordagem híbrida para compreender o sentido da pergunta, isto
é, combina as abordagens linguística e baseada baseada em regras, estas construídas manualmente
baseando-se no dicionário dos dados e legislação educacional vigente. Os resultados da
avaliação realizada junto a profissionais da área da educação sugerem a facilidade do uso de
um SPR, além da importância da ferramenta para consulta dessas informações nesse conjunto
de dados, no entanto, ainda são encontradas uma série de dificuldades relacionadas ao PLN
propriamente dito, além de particularidades relativas ao conjunto de dados educacionais usado. | por |
dc.contributor.advisor1 | Charao, Andrea Schwertner | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/8251676116103188 | por |
dc.contributor.referee1 | Lima, Joao Carlos Damasceno | |
dc.contributor.referee2 | Del Fabro, Marcos Didonet | |
dc.creator.Lattes | http://lattes.cnpq.br/2219319121452170 | por |
dc.publisher.country | Brasil | por |
dc.publisher.department | Ciência da Computação | por |
dc.publisher.initials | UFSM | por |
dc.publisher.program | Programa de Pós-Graduação em Ciência da Computação | por |
dc.subject.cnpq | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | por |
dc.publisher.unidade | Centro de Tecnologia | por |