Análise do desempenho da busca por similaridade utilizando o paradigma MapReduce

Cardoso, Paulo Vinicius Mendonça

dc.contributor.advisor	Mergen, Sergio Luis Sardi
dc.creator	Cardoso, Paulo Vinicius Mendonça
dc.date.accessioned	2022-05-31T20:45:12Z
dc.date.available	2022-05-31T20:45:12Z
dc.date.issued	2016-12-16
dc.date.submitted	2016
dc.identifier.uri	http://repositorio.ufsm.br/handle/1/24635
dc.description	Trabalho de conclusão de curso (graduação) - Universidade Federal de Santa Maria, Centro de Tecnologia, Curso de Ciência da Computação, RS, 2016.	por
dc.description.abstract	The Information Retrieval (RI) is a research area involved in creating solutions for databases search. The aim of RI is to answer a user information needed. A common data structure used to assist the search process is the inverted index, composed by entries that lead to a related object list. In this context, an object search can be done by equivalence or similarity. Similarity search is a powerful method, since it can retrieve the most similar objects according to the request. However, the complexity involved in computing the similarity can harm the performance, making it necessary to resort to alternative processing techniques. The distributed computing was created to help finding solutions for this type of problem, with tools, paradigms and distributed architectures. The MapReduce paradigm is an example of distributed model with the purpose of processing a big amount of data on cluster environments. This model fits into the inverted index search context because of its key-value architecture. Thus, the aim of this work is to analyses the distributed processing tools that implement the MapReduce concept over a similarity search problem that relies on an inverted index. The results shows how different frameworks behave under several test scenarios.	eng
dc.language	por	por
dc.publisher	Universidade Federal de Santa Maria	por
dc.rights	Acesso Aberto	por
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Spark	eng
dc.subject	Hadoop	eng
dc.subject	MapReduce	eng
dc.subject	Índice invertido	por
dc.subject	Recuperação de informação	por
dc.subject	Desempenho	por
dc.title	Análise do desempenho da busca por similaridade utilizando o paradigma MapReduce	por
dc.type	Trabalho de Conclusão de Curso de Graduação	por
dc.degree.local	Santa Maria, RS, Brasil.	por
dc.description.resumo	A Recuperação de Informação (RI) é uma área de pesquisa envolvida na criação de soluções para buscas em repositórios de dados, a fim de se atender à uma necessidade de informação do usuário. Uma estrutura bastante utilizada para consultas em RI é o índice invertido, onde uma entrada do índice leva à lista de objetos associados. Nesse contexto, buscas por objetos podem ser definidas por equivalência ou por similaridade. Buscas por similaridade apresentam uma perspectiva mais poderosa, já que permitem a recuperação dos objetos mais similares às consultas. Porém, o cálculo de similaridade pode tornar o processo complexo e custoso, podendo ser necessário recorrer à técnicas alternativas de processamento. A computação distribuída foi criada para atender a esse tipo de problema, oferecendo soluções como ferramentas, modelos e arquiteturas distribuídas. Um paradigma de computação distribuída que pode-se aplicar em buscas com índice invertido é o MapReduce, proposto para o processamento de grandes quantidades de dados em ambientes de cluster. Desta forma, o objetivo deste trabalho é analisar o funcionamento de ferramentas de processamento distribuído que implementam o MapReduce em um problema de busca com índices invertidos. Os resultados mostram as diferenças de desempenho dos frameworks através de diversos cenários de teste.	por
dc.publisher.country	Brasil	por
dc.publisher.initials	UFSM	por
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	por
dc.publisher.unidade	Centro de Tecnologia	por

Arquivos deste item

Nome:: TG429_Paulo Vinicius Mendonça ...
Tamanho:: 1.993Mb
Formato:: PDF
Descrição:: TCC de Graduação

Visualizar/Abrir

Nome:: license_rdf
Tamanho:: 805bytes
Formato:: application/rdf+xml

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

TCC Ciência da Computação - Bacharelado [336]
Coleção de trabalhos de conclusão do Curso em Ciência da Computação - Bacharelado

Mostrar registro simples

Exceto quando indicado o contrário, a licença deste item é descrito como Acesso Aberto