Análise do desempenho da busca por similaridade utilizando o paradigma MapReduce

Cardoso, Paulo Vinicius Mendonça

View/Open

TCC de Graduação (1.993Mb)

Date

2016-12-16

Author

Cardoso, Paulo Vinicius Mendonça

Metadata

Show full item record

Abstract

A Recuperação de Informação (RI) é uma área de pesquisa envolvida na criação de soluções para buscas em repositórios de dados, a fim de se atender à uma necessidade de informação do usuário. Uma estrutura bastante utilizada para consultas em RI é o índice invertido, onde uma entrada do índice leva à lista de objetos associados. Nesse contexto, buscas por objetos podem ser definidas por equivalência ou por similaridade. Buscas por similaridade apresentam uma perspectiva mais poderosa, já que permitem a recuperação dos objetos mais similares às consultas. Porém, o cálculo de similaridade pode tornar o processo complexo e custoso, podendo ser necessário recorrer à técnicas alternativas de processamento. A computação distribuída foi criada para atender a esse tipo de problema, oferecendo soluções como ferramentas, modelos e arquiteturas distribuídas. Um paradigma de computação distribuída que pode-se aplicar em buscas com índice invertido é o MapReduce, proposto para o processamento de grandes quantidades de dados em ambientes de cluster. Desta forma, o objetivo deste trabalho é analisar o funcionamento de ferramentas de processamento distribuído que implementam o MapReduce em um problema de busca com índices invertidos. Os resultados mostram as diferenças de desempenho dos frameworks através de diversos cenários de teste.

URI

http://repositorio.ufsm.br/handle/1/24635

Collections

TCC Ciência da Computação - Bacharelado [335]

The following license files are associated with this item:

Creative Commons

Except where otherwise noted, this item's license is described as Acesso Aberto