Análise do desempenho da busca por similaridade utilizando o paradigma MapReduce
Visualizar/ Abrir
Data
2016-12-16Autor
Cardoso, Paulo Vinicius Mendonça
Metadata
Mostrar registro completoResumo
A Recuperação de Informação (RI) é uma área de pesquisa envolvida na criação de soluções para buscas em repositórios de dados, a fim de se atender à uma necessidade de informação
do usuário. Uma estrutura bastante utilizada para consultas em RI é o índice invertido, onde uma
entrada do índice leva à lista de objetos associados. Nesse contexto, buscas por objetos podem
ser definidas por equivalência ou por similaridade. Buscas por similaridade apresentam uma
perspectiva mais poderosa, já que permitem a recuperação dos objetos mais similares às consultas. Porém, o cálculo de similaridade pode tornar o processo complexo e custoso, podendo
ser necessário recorrer à técnicas alternativas de processamento. A computação distribuída foi
criada para atender a esse tipo de problema, oferecendo soluções como ferramentas, modelos
e arquiteturas distribuídas. Um paradigma de computação distribuída que pode-se aplicar em
buscas com índice invertido é o MapReduce, proposto para o processamento de grandes quantidades de dados em ambientes de cluster. Desta forma, o objetivo deste trabalho é analisar o
funcionamento de ferramentas de processamento distribuído que implementam o MapReduce
em um problema de busca com índices invertidos. Os resultados mostram as diferenças de
desempenho dos frameworks através de diversos cenários de teste.
Coleções
Os arquivos de licença a seguir estão associados a este item: