dc.contributor.advisor | Charao, Andrea Schwertner | |
dc.creator | Pereira, Adriano | |
dc.date.accessioned | 2022-07-18T14:15:36Z | |
dc.date.available | 2022-07-18T14:15:36Z | |
dc.date.issued | 2010-12-06 | |
dc.date.submitted | 2010 | |
dc.identifier.uri | http://repositorio.ufsm.br/handle/1/25391 | |
dc.description | Trabalho de conclusão de curso (graduação) - Universidade Federal de Santa
Maria, Centro de Tecnologia, Curso de Ciência da Computação, RS, 2010. | por |
dc.description.abstract | Huge data sets have been generated from computing tools. Implicit patterns could
be present in this data. Data mining worries in look for relationship, specially, in large
data sets, enabling the extration of useful new information. Distributed computing allows
the data decentralization and speeds up the data mining process. Apache Mahout is a
distributed data mining tool, which uses MapReduce program model, promising scalability
by spliting the workload in independents tasks, among themselves. This work has
as objective to verify Apache Mahout’s performance, through a implemented algoritms’
choice, data set preparation and mining of these data in differents distributed environments,
analyzing the tool’s scalability, as the performance improvement due to nodes’ or
cores’ addition to the processing. | eng |
dc.language | por | por |
dc.rights | Acesso Aberto | por |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.subject | Mineração de dados | por |
dc.subject | Mineração de dados distribuída | por |
dc.subject | Apache Mahout | por |
dc.title | Mineração de dados distribuída e escalável usando Apache Mahout | por |
dc.type | Trabalho de Conclusão de Curso de Graduação | por |
dc.degree.local | Santa Maria, RS, Brasil. | por |
dc.description.resumo | Grandes volumes de dados vêm sendo gerados por ferramentas computacionais. Nestes
dados, podem haver padrões implícitos, a partir dos quais pode ser possível extrair
novos conhecimentos. A mineração de dados preocupa-se com a busca de relações, especialmente,
em grandes quantidades de dados, possibilitando a extração de novas informações
úteis. O uso de computação distribuída permite a descentralização dos dados e a
aceleração do processo de mineração. Apache Mahout é uma ferramenta para a mineração
de dados distribuída, que faz uso do modelo de programação MapReduce, prometendo
escalabilidade ao dividir a carga de trabalho em tarefas independentes entre si. Este trabalho
tem como objetivo verificar o desempenho do Apache Mahout, através da seleção de
algoritmos implementados pela ferramenta, preparação de um conjunto de dados, e execução
destes algoritmos, neste conjunto de dados, em diferentes ambientes distribuídos,
analisando a escalabilidade da ferramenta, quanto ao ganho de desempenho em relação
ao acréscimo de nodos ou núcleos ao processamento. | por |
dc.publisher.country | Brasil | por |
dc.publisher.initials | UFSM | por |
dc.subject.cnpq | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | por |
dc.publisher.unidade | Centro de Tecnologia | por |