dc.contributor.advisor | Mergen, Sergio Luis Sardi | |
dc.creator | Cardoso, Paulo Vinicius Mendonça | |
dc.date.accessioned | 2022-05-31T20:45:12Z | |
dc.date.available | 2022-05-31T20:45:12Z | |
dc.date.issued | 2016-12-16 | |
dc.date.submitted | 2016 | |
dc.identifier.uri | http://repositorio.ufsm.br/handle/1/24635 | |
dc.description | Trabalho de conclusão de curso (graduação) - Universidade Federal de Santa
Maria, Centro de Tecnologia, Curso de Ciência da Computação, RS, 2016. | por |
dc.description.abstract | The Information Retrieval (RI) is a research area involved in creating solutions for
databases search. The aim of RI is to answer a user information needed. A common data
structure used to assist the search process is the inverted index, composed by entries that lead to
a related object list. In this context, an object search can be done by equivalence or similarity.
Similarity search is a powerful method, since it can retrieve the most similar objects according
to the request. However, the complexity involved in computing the similarity can harm the
performance, making it necessary to resort to alternative processing techniques. The distributed
computing was created to help finding solutions for this type of problem, with tools, paradigms
and distributed architectures. The MapReduce paradigm is an example of distributed model
with the purpose of processing a big amount of data on cluster environments. This model fits
into the inverted index search context because of its key-value architecture. Thus, the aim of this
work is to analyses the distributed processing tools that implement the MapReduce concept over
a similarity search problem that relies on an inverted index. The results shows how different
frameworks behave under several test scenarios. | eng |
dc.language | por | por |
dc.publisher | Universidade Federal de Santa Maria | por |
dc.rights | Acesso Aberto | por |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.subject | Spark | eng |
dc.subject | Hadoop | eng |
dc.subject | MapReduce | eng |
dc.subject | Índice invertido | por |
dc.subject | Recuperação de informação | por |
dc.subject | Desempenho | por |
dc.title | Análise do desempenho da busca por similaridade utilizando o paradigma MapReduce | por |
dc.type | Trabalho de Conclusão de Curso de Graduação | por |
dc.degree.local | Santa Maria, RS, Brasil. | por |
dc.description.resumo | A Recuperação de Informação (RI) é uma área de pesquisa envolvida na criação de soluções para buscas em repositórios de dados, a fim de se atender à uma necessidade de informação
do usuário. Uma estrutura bastante utilizada para consultas em RI é o índice invertido, onde uma
entrada do índice leva à lista de objetos associados. Nesse contexto, buscas por objetos podem
ser definidas por equivalência ou por similaridade. Buscas por similaridade apresentam uma
perspectiva mais poderosa, já que permitem a recuperação dos objetos mais similares às consultas. Porém, o cálculo de similaridade pode tornar o processo complexo e custoso, podendo
ser necessário recorrer à técnicas alternativas de processamento. A computação distribuída foi
criada para atender a esse tipo de problema, oferecendo soluções como ferramentas, modelos
e arquiteturas distribuídas. Um paradigma de computação distribuída que pode-se aplicar em
buscas com índice invertido é o MapReduce, proposto para o processamento de grandes quantidades de dados em ambientes de cluster. Desta forma, o objetivo deste trabalho é analisar o
funcionamento de ferramentas de processamento distribuído que implementam o MapReduce
em um problema de busca com índices invertidos. Os resultados mostram as diferenças de
desempenho dos frameworks através de diversos cenários de teste. | por |
dc.publisher.country | Brasil | por |
dc.publisher.initials | UFSM | por |
dc.subject.cnpq | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | por |
dc.publisher.unidade | Centro de Tecnologia | por |