Extração automatizada de dados de documentos em formato PDF: aplicação a grandes conjuntos de exames educacionais
Visualizar/ Abrir
Data
2021-04-16Primeiro membro da banca
Trois, Celio
Segundo membro da banca
Fabro, Marcos Didonet
Metadata
Mostrar registro completoResumo
A produção massiva de documentos em formato PDF tem motivado pesquisas sobre extração
automatizada de dados contidos nesses arquivos. Muitos exames educacionais
utilizam provas disponibilizadas em formato PDF, que servem como material de estudo e
pesquisa. Segmentar, identificar e extrair automaticamente o conteúdo de uma prova em
PDF representa um desafio, pois o layout deste tipo de documento pode apresentar muitas
variações. Pesquisas nas áreas de análise e reconhecimento de documentos, visão
computacional e recuperação de informação têm produzido algoritmos e ferramentas que
podem ser aplicados a esta tarefa, mas determinar sua eficácia para um dado conjunto
de documentos não é uma tarefa trivial. Este trabalho propõe uma abordagem em avaliar
ferramentas de extrações de dados em PDF nativamente digitais, disponibilizados em repositórios
de exames educacionais. Para isso, foram utilizados os exames educacionais
aplicados no Enade, entre os anos de 2004 até 2019. Os arquivos utilizados para a avaliação
compreendem 343 provas, com 11.196 questões objetivas e discursivas, além de
todos os 396 gabaritos, com 14.475 alternativas extraídas das questões objetivas. Para
a construção de ground truth nas provas utilizou-se a ferramenta Aletheia, cuja finalidade
é definir as regiões de interesse em cada questão. Para as extrações, utilizou-se ferramentas
existentes que realizam extrações de dados em arquivos PDF, definidas para três
categorias: extrações de dados tabulares, extrações de conteúdo textual e extrações de
regiões de interesse. Os resultados das extrações apontam algumas limitações em relação
a diversidade de layout em cada ano de aplicação da prova do Enade, a dificuldade em
identificar e extrair questões quando dispostas em duas colunas na mesma página ou em
colunas múltiplas. Os dados extraídos fornecem informações úteis, podendo auxiliar estudantes
que pretendem estudar para outras provas, professores no intuito de utilizar essas
questões para exercícios em sala de aula, além de coordenadores de cursos auxiliando a
mapear dificuldades dos alunos a partir de questões em relatórios.
Coleções
Os arquivos de licença a seguir estão associados a este item: