Gerenciamento dinâmico de memória em aplicações com reuso de dados no Apache Spark

Donato, Mauricio Matter

Ver/

Dissertação de Mestrado (1.176Mb)

Fecha

2020-05-25

Autor

Donato, Mauricio Matter

Primeiro orientador

Barcelos, Patrícia Pitthan de Araújo

Primeiro membro da banca

Lima, João Vicente Ferreira

Segundo membro da banca

Wives, Leandro Krug

Metadatos

Mostrar el registro completo del ítem

Resumen

O Apache Spark é um framework capaz de processar grandes quantidades de dados em memória, através da sua principal abstração: o Resilient Distributed Datasets (RDD). Um RDD consiste em uma coleção imutável de objetos, os quais podem ser operados de maneira paralela e distribuída nocluster. Uma vez processados, RDDs podem ser mantidos em cache, possibilitando a sua reutilização sem realizar a sua recomputação. Conforme a computação da aplicação é feita, a memória tende a ficar sobrecarregada e, portanto, partições de RDDs devem ser removidas de acordo com o algoritmo Least Recently Used (LRU). Este algoritmo é baseado na observação de que partições frequentemente utilizadas em um passado recente tendem a ser acessadas novamente em um futuro próximo. Deste modo, remove-se a partição cujo acesso ocorreu há mais tempo. Entretanto, há situações em que o LRU pode acarretar em uma degradação no desempenho, como é o caso onde há acessos cíclicos à memória e a quantidade de dados manipulados é maior que o espaço disponível. Nessas situações,o LRU sempre irá remover um bloco que será acessado em um futuro próximo. Considerando tal problemática, este trabalho propõe um modelo de Gerenciamento Dinâmico da Memória em Aplicações com Reuso de Dados no Apache Spark. Este modelo busca extrair métricas da aplicação em execução a fim de utilizar estas informações para realizar remoção dos dados em cache. O modelo proposto é composto por dois componentes principais, sendo estes (1) um algoritmo de gerenciamento das partições de RDDs armazenadas em memória e (2) um agente de monitoramento responsável por obter informações sobre a execução de aplicações. O modelo de Gerenciamento Dinâmico foi validado através da realização de experimentos utilizando a plataforma Grid’5000 com os benchmarks PageRank, K-Means e Logistic Regression. Os resultados obtidos demonstram que o modelo de Gerênciamento Dinâmico conseguiu realizar um melhor aproveitamento da memória disponível, chegando a reduzir em 23,94% o tempo médio necessário para processar o benchmark Logistic Regression, quanto comparado ao LRU. Ademais, o modelo proposto tornou a execução do Spark mais estável, reduzindo a frequência de erros no processamento dos benchmarks. Como consequência, houve uma redução de até 34,15% no tempo de execução do benchmark PageRank. Portanto, estes resultados permitem concluir que estratégias dinâmicas, como a proposta por este estudo, podem proporcionar um ganho no desempenho do Spark no processamento de aplicações onde existe o reuso de dados.

URI

http://repositorio.ufsm.br/handle/1/22687

Colecciones

Programa de Pós-Graduação em Ciência da Computação [139]

El ítem tiene asociados los siguientes ficheros de licencia:

Creative Commons

Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 International