Análise do desempenho da busca por similaridade utilizando o paradigma MapReduce

Cardoso, Paulo Vinicius Mendonça

Ver/

TCC de Graduação (1.993Mb)

Fecha

2016-12-16

Autor

Cardoso, Paulo Vinicius Mendonça

Metadatos

Mostrar el registro completo del ítem

Resumen

A Recuperação de Informação (RI) é uma área de pesquisa envolvida na criação de soluções para buscas em repositórios de dados, a fim de se atender à uma necessidade de informação do usuário. Uma estrutura bastante utilizada para consultas em RI é o índice invertido, onde uma entrada do índice leva à lista de objetos associados. Nesse contexto, buscas por objetos podem ser definidas por equivalência ou por similaridade. Buscas por similaridade apresentam uma perspectiva mais poderosa, já que permitem a recuperação dos objetos mais similares às consultas. Porém, o cálculo de similaridade pode tornar o processo complexo e custoso, podendo ser necessário recorrer à técnicas alternativas de processamento. A computação distribuída foi criada para atender a esse tipo de problema, oferecendo soluções como ferramentas, modelos e arquiteturas distribuídas. Um paradigma de computação distribuída que pode-se aplicar em buscas com índice invertido é o MapReduce, proposto para o processamento de grandes quantidades de dados em ambientes de cluster. Desta forma, o objetivo deste trabalho é analisar o funcionamento de ferramentas de processamento distribuído que implementam o MapReduce em um problema de busca com índices invertidos. Os resultados mostram as diferenças de desempenho dos frameworks através de diversos cenários de teste.

URI

http://repositorio.ufsm.br/handle/1/24635

Colecciones

TCC Ciência da Computação - Bacharelado [336]

El ítem tiene asociados los siguientes ficheros de licencia:

Creative Commons

Excepto si se señala otra cosa, la licencia del ítem se describe como Acesso Aberto