Análise do desempenho da busca por similaridade utilizando o paradigma MapReduce
Abstract
A Recuperação de Informação (RI) é uma área de pesquisa envolvida na criação de soluções para buscas em repositórios de dados, a fim de se atender à uma necessidade de informação
do usuário. Uma estrutura bastante utilizada para consultas em RI é o índice invertido, onde uma
entrada do índice leva à lista de objetos associados. Nesse contexto, buscas por objetos podem
ser definidas por equivalência ou por similaridade. Buscas por similaridade apresentam uma
perspectiva mais poderosa, já que permitem a recuperação dos objetos mais similares às consultas. Porém, o cálculo de similaridade pode tornar o processo complexo e custoso, podendo
ser necessário recorrer à técnicas alternativas de processamento. A computação distribuída foi
criada para atender a esse tipo de problema, oferecendo soluções como ferramentas, modelos
e arquiteturas distribuídas. Um paradigma de computação distribuída que pode-se aplicar em
buscas com índice invertido é o MapReduce, proposto para o processamento de grandes quantidades de dados em ambientes de cluster. Desta forma, o objetivo deste trabalho é analisar o
funcionamento de ferramentas de processamento distribuído que implementam o MapReduce
em um problema de busca com índices invertidos. Os resultados mostram as diferenças de
desempenho dos frameworks através de diversos cenários de teste.
Collections
The following license files are associated with this item: