Análise do desempenho da busca por similaridade utilizando o paradigma MapReduce

Cardoso, Paulo Vinicius Mendonça

Visualizar/Abrir

TCC de Graduação (1.993Mb)

Data

2016-12-16

Autor

Cardoso, Paulo Vinicius Mendonça

Metadata

Mostrar registro completo

Resumo

A Recuperação de Informação (RI) é uma área de pesquisa envolvida na criação de soluções para buscas em repositórios de dados, a fim de se atender à uma necessidade de informação do usuário. Uma estrutura bastante utilizada para consultas em RI é o índice invertido, onde uma entrada do índice leva à lista de objetos associados. Nesse contexto, buscas por objetos podem ser definidas por equivalência ou por similaridade. Buscas por similaridade apresentam uma perspectiva mais poderosa, já que permitem a recuperação dos objetos mais similares às consultas. Porém, o cálculo de similaridade pode tornar o processo complexo e custoso, podendo ser necessário recorrer à técnicas alternativas de processamento. A computação distribuída foi criada para atender a esse tipo de problema, oferecendo soluções como ferramentas, modelos e arquiteturas distribuídas. Um paradigma de computação distribuída que pode-se aplicar em buscas com índice invertido é o MapReduce, proposto para o processamento de grandes quantidades de dados em ambientes de cluster. Desta forma, o objetivo deste trabalho é analisar o funcionamento de ferramentas de processamento distribuído que implementam o MapReduce em um problema de busca com índices invertidos. Os resultados mostram as diferenças de desempenho dos frameworks através de diversos cenários de teste.

URI

http://repositorio.ufsm.br/handle/1/24635

Coleções

TCC Ciência da Computação - Bacharelado [338]

Os arquivos de licença a seguir estão associados a este item:

Creative Commons

Exceto quando indicado o contrário, a licença deste item é descrito como Acesso Aberto