Classificação automática de questões de provas: análise comparativa de algoritmos e aplicação ao Enade
Resumo
Apesar da grande quantidade de dados textuais armazenada digitalmente, existem diversos
desafios para processá-los, que diminuem seu aproveitamento. Com dificuldades ligadas
ao processamento de dados não estruturados, os estudos evitam a exploração e
extração de informação desses elementos e, muitas vezes, esses conjuntos de texto são
deixados de lado, ficando o foco em outros dados pertencentes à mesma base de dados.
Uma situação deste tipo ocorre com os dados da educação brasileira, onde os microdados,
compostos pelas notas das provas e respostas de questionários, são avaliados com
frequência. Por outro lado, há uma quantidade reduzida de trabalhos que associam essas
variáveis dos microdados com os conteúdos que formam esse resultado, que são os dados
textuais das provas. Apesar das dificuldades para extração e processamento desses
dados, já existem alguns avanços nessa área. Esses avanços incluem a automatização
da classificação de questões, o que torna mais viável analisar esses dados em conjunto.
Considerando esses avanços e a escassez de exploração dos dados textuais fornecidos
por órgãos responsáveis pelo sistema educacional brasileiro, o presente trabalho tem o
objetivo de analisar técnicas de processamento e classificação de dados textuais e utilizálas
no contexto de provas do Enade (Exame Nacional de Desempenho de Estudantes). A
partir da seleção de algoritmos que se prestam a essa finalidade, buscou-se avaliar seu
desempenho e acurácia na classificação das questões, de acordo com a categorização
definida.
Coleções
Os arquivos de licença a seguir estão associados a este item: