dc.creator | Wiechork, Karina | |
dc.date.accessioned | 2021-12-02T19:14:59Z | |
dc.date.available | 2021-12-02T19:14:59Z | |
dc.date.issued | 2021-04-16 | |
dc.identifier.uri | http://repositorio.ufsm.br/handle/1/23130 | |
dc.description.abstract | The massive production of documents in PDF has motivated research on automated extraction
of data contained in these files. Many educational tests use tests available in PDF
format, which serve as study and research material. Segmenting, identifying and automatically
extracting the content of a test in PDF represents a challenge, as the layout of this
type of document can have many variations. Research in the areas of document analysis
and recognition, computer vision and information retrieval have produced algorithms and
tools that can be applied to this task, but determining their effectiveness for a given set of
documents is not a trivial task. This work proposes an approach to evaluate native digital
PDF data extraction tools, available in large educational test repositories. For this, the educational
tests applied at Enade were used, between the years 2004 to 2019. The files used
for the evaluation comprise 343 tests, with 11.196 objective and discursive questions, in addition
to all 396 answers, with 14.475 alternatives extracted from the questions objectives.
For the construction of ground truth in the tests, the Aletheia tool was used, whose purpose
is to define the regions of interest in each question. For the extractions, existing tools were
used that perform data extractions in PDF files, defined for three categories: extractions of
tabular data, extractions of textual content and extractions of regions of interest. The results
of the extractions point out some limitations in relation to the diversity of layout in each year
of application of the Enade test, the difficulty in identifying and extracting questions when
arranged in two columns on the same page or in multiple columns. The extracted data
provide useful information, which can assist students who intend to study for other tests,
teachers in order to use these questions for classroom exercises, as well as course coordinators
helping to map students’ difficulties from questions in reports. | eng |
dc.language | por | por |
dc.publisher | Universidade Federal de Santa Maria | por |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.subject | PDF | por |
dc.subject | Extração automatizada | por |
dc.subject | Avaliação | por |
dc.subject | Exames educacionais | por |
dc.subject | Ground truth | por |
dc.subject | Automated extraction | eng |
dc.subject | Evaluation | eng |
dc.subject | Educational tests | eng |
dc.title | Extração automatizada de dados de documentos em formato PDF: aplicação a grandes conjuntos de exames educacionais | por |
dc.title.alternative | Automated data extraction from PDF documents: application to large sets of educational tests | eng |
dc.type | Dissertação | por |
dc.description.resumo | A produção massiva de documentos em formato PDF tem motivado pesquisas sobre extração
automatizada de dados contidos nesses arquivos. Muitos exames educacionais
utilizam provas disponibilizadas em formato PDF, que servem como material de estudo e
pesquisa. Segmentar, identificar e extrair automaticamente o conteúdo de uma prova em
PDF representa um desafio, pois o layout deste tipo de documento pode apresentar muitas
variações. Pesquisas nas áreas de análise e reconhecimento de documentos, visão
computacional e recuperação de informação têm produzido algoritmos e ferramentas que
podem ser aplicados a esta tarefa, mas determinar sua eficácia para um dado conjunto
de documentos não é uma tarefa trivial. Este trabalho propõe uma abordagem em avaliar
ferramentas de extrações de dados em PDF nativamente digitais, disponibilizados em repositórios
de exames educacionais. Para isso, foram utilizados os exames educacionais
aplicados no Enade, entre os anos de 2004 até 2019. Os arquivos utilizados para a avaliação
compreendem 343 provas, com 11.196 questões objetivas e discursivas, além de
todos os 396 gabaritos, com 14.475 alternativas extraídas das questões objetivas. Para
a construção de ground truth nas provas utilizou-se a ferramenta Aletheia, cuja finalidade
é definir as regiões de interesse em cada questão. Para as extrações, utilizou-se ferramentas
existentes que realizam extrações de dados em arquivos PDF, definidas para três
categorias: extrações de dados tabulares, extrações de conteúdo textual e extrações de
regiões de interesse. Os resultados das extrações apontam algumas limitações em relação
a diversidade de layout em cada ano de aplicação da prova do Enade, a dificuldade em
identificar e extrair questões quando dispostas em duas colunas na mesma página ou em
colunas múltiplas. Os dados extraídos fornecem informações úteis, podendo auxiliar estudantes
que pretendem estudar para outras provas, professores no intuito de utilizar essas
questões para exercícios em sala de aula, além de coordenadores de cursos auxiliando a
mapear dificuldades dos alunos a partir de questões em relatórios. | por |
dc.contributor.advisor1 | Charao, Andrea Schwertner | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/8251676116103188 | por |
dc.contributor.referee1 | Trois, Celio | |
dc.contributor.referee2 | Fabro, Marcos Didonet | |
dc.creator.Lattes | http://lattes.cnpq.br/7496211017679154 | por |
dc.publisher.country | Brasil | por |
dc.publisher.department | Ciência da Computação | por |
dc.publisher.initials | UFSM | por |
dc.publisher.program | Programa de Pós-Graduação em Ciência da Computação | por |
dc.subject.cnpq | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | por |
dc.publisher.unidade | Centro de Tecnologia | por |