Mineração de dados distribuída e escalável usando Apache Mahout

Pereira, Adriano

dc.contributor.advisor	Charao, Andrea Schwertner
dc.creator	Pereira, Adriano
dc.date.accessioned	2022-07-18T14:15:36Z
dc.date.available	2022-07-18T14:15:36Z
dc.date.issued	2010-12-06
dc.date.submitted	2010
dc.identifier.uri	http://repositorio.ufsm.br/handle/1/25391
dc.description	Trabalho de conclusão de curso (graduação) - Universidade Federal de Santa Maria, Centro de Tecnologia, Curso de Ciência da Computação, RS, 2010.	por
dc.description.abstract	Huge data sets have been generated from computing tools. Implicit patterns could be present in this data. Data mining worries in look for relationship, specially, in large data sets, enabling the extration of useful new information. Distributed computing allows the data decentralization and speeds up the data mining process. Apache Mahout is a distributed data mining tool, which uses MapReduce program model, promising scalability by spliting the workload in independents tasks, among themselves. This work has as objective to verify Apache Mahout’s performance, through a implemented algoritms’ choice, data set preparation and mining of these data in differents distributed environments, analyzing the tool’s scalability, as the performance improvement due to nodes’ or cores’ addition to the processing.	eng
dc.language	por	por
dc.rights	Acesso Aberto	por
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Mineração de dados	por
dc.subject	Mineração de dados distribuída	por
dc.subject	Apache Mahout	por
dc.title	Mineração de dados distribuída e escalável usando Apache Mahout	por
dc.type	Trabalho de Conclusão de Curso de Graduação	por
dc.degree.local	Santa Maria, RS, Brasil.	por
dc.description.resumo	Grandes volumes de dados vêm sendo gerados por ferramentas computacionais. Nestes dados, podem haver padrões implícitos, a partir dos quais pode ser possível extrair novos conhecimentos. A mineração de dados preocupa-se com a busca de relações, especialmente, em grandes quantidades de dados, possibilitando a extração de novas informações úteis. O uso de computação distribuída permite a descentralização dos dados e a aceleração do processo de mineração. Apache Mahout é uma ferramenta para a mineração de dados distribuída, que faz uso do modelo de programação MapReduce, prometendo escalabilidade ao dividir a carga de trabalho em tarefas independentes entre si. Este trabalho tem como objetivo verificar o desempenho do Apache Mahout, através da seleção de algoritmos implementados pela ferramenta, preparação de um conjunto de dados, e execução destes algoritmos, neste conjunto de dados, em diferentes ambientes distribuídos, analisando a escalabilidade da ferramenta, quanto ao ganho de desempenho em relação ao acréscimo de nodos ou núcleos ao processamento.	por
dc.publisher.country	Brasil	por
dc.publisher.initials	UFSM	por
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	por
dc.publisher.unidade	Centro de Tecnologia	por

Arquivos deste item

Nome:: license_rdf
Tamanho:: 805bytes
Formato:: application/rdf+xml

Visualizar/Abrir

Nome:: TG298_Adriano Pereira.pdf
Tamanho:: 2.156Mb
Formato:: PDF
Descrição:: TCC de Graduação

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

TCC Ciência da Computação - Bacharelado [336]
Coleção de trabalhos de conclusão do Curso em Ciência da Computação - Bacharelado

Mostrar registro simples

Exceto quando indicado o contrário, a licença deste item é descrito como Acesso Aberto