Um processo para extração de esquemas conceituais em fontes de dados JSON baseado em técnicas de similaridade de texto
Resumo
Os modelos de dados NoSQL (Not Only SQL) vêm se destacando devido à sua promessa
de flexibilidade de esquemas e escalabilidade frente ao grande volume de dados gerados
atualmente. Sua flexibilidade permite, por exemplo, que documentos dentro da mesma coleção
possuam campos distintos. Este fato se torna um problema no momento que é preciso acessar
o banco de dados de forma unificada, ou de modo automatizado através de rotinas de programação,
pois não há uma padronização em sua estrutura. Nesse sentido o trabalho apresenta um
processo para extração de esquema em fontes de dados JSON (JavaScript Object Notation).
Esta proposta diferencia-se por analisar campos que representam a mesma informação,
mas que estejam escritos de modo diferente. No contexto deste trabalho, diferença de escrita
diz respeito ao tratamento de sinônimos, grafia similar e mesmo radical de palavra. Para tal,
são utilizadas técnicas como funções de similaridade baseadas em caractere e sinônimos, assim
como extrator de radicais. Portanto, o objetivo do trabalho é extrair o esquema implícito
presente nessas fontes de dados aplicando diferentes técnicas de equivalência textual em nomes
de campos, bem como produzir um esquema conceitual e os respectivos mapeamentos para os
termos equivalentes.
Coleções
Os arquivos de licença a seguir estão associados a este item: