Análise do desempenho da busca por similaridade utilizando o paradigma MapReduce
Fecha
2016-12-16Autor
Cardoso, Paulo Vinicius Mendonça
Metadatos
Mostrar el registro completo del ítemResumen
A Recuperação de Informação (RI) é uma área de pesquisa envolvida na criação de soluções para buscas em repositórios de dados, a fim de se atender à uma necessidade de informação
do usuário. Uma estrutura bastante utilizada para consultas em RI é o índice invertido, onde uma
entrada do índice leva à lista de objetos associados. Nesse contexto, buscas por objetos podem
ser definidas por equivalência ou por similaridade. Buscas por similaridade apresentam uma
perspectiva mais poderosa, já que permitem a recuperação dos objetos mais similares às consultas. Porém, o cálculo de similaridade pode tornar o processo complexo e custoso, podendo
ser necessário recorrer à técnicas alternativas de processamento. A computação distribuída foi
criada para atender a esse tipo de problema, oferecendo soluções como ferramentas, modelos
e arquiteturas distribuídas. Um paradigma de computação distribuída que pode-se aplicar em
buscas com índice invertido é o MapReduce, proposto para o processamento de grandes quantidades de dados em ambientes de cluster. Desta forma, o objetivo deste trabalho é analisar o
funcionamento de ferramentas de processamento distribuído que implementam o MapReduce
em um problema de busca com índices invertidos. Os resultados mostram as diferenças de
desempenho dos frameworks através de diversos cenários de teste.
Colecciones
El ítem tiene asociados los siguientes ficheros de licencia: