Mineração de dados distribuída e escalável usando Apache Mahout
Abstract
Grandes volumes de dados vêm sendo gerados por ferramentas computacionais. Nestes
dados, podem haver padrões implícitos, a partir dos quais pode ser possível extrair
novos conhecimentos. A mineração de dados preocupa-se com a busca de relações, especialmente,
em grandes quantidades de dados, possibilitando a extração de novas informações
úteis. O uso de computação distribuída permite a descentralização dos dados e a
aceleração do processo de mineração. Apache Mahout é uma ferramenta para a mineração
de dados distribuída, que faz uso do modelo de programação MapReduce, prometendo
escalabilidade ao dividir a carga de trabalho em tarefas independentes entre si. Este trabalho
tem como objetivo verificar o desempenho do Apache Mahout, através da seleção de
algoritmos implementados pela ferramenta, preparação de um conjunto de dados, e execução
destes algoritmos, neste conjunto de dados, em diferentes ambientes distribuídos,
analisando a escalabilidade da ferramenta, quanto ao ganho de desempenho em relação
ao acréscimo de nodos ou núcleos ao processamento.
Collections
The following license files are associated with this item: