Arquitetura dinâmica para o balanceamento de réplicas em sistemas de arquivos distribuídos
Visualizar/ Abrir
Data
2022-09-28Primeiro membro da banca
Lima, João Vicente Ferreira
Segundo membro da banca
Mendizabal, Odorico Machado
Metadata
Mostrar registro completoResumo
Sistemas de arquivos distribuídos são essenciais para suportar aplicações que lidam com grandes volumes de dados. Um dos sistemas mais utilizados é o HDFS, o sistema de arquivos distribuído do Apache Hadoop. A replicação de dados, que é o elemento central do modelo de armazenamento do HDFS, é essencial para a tolerância a falhas e o desempenho, sendo que o posicionamento das réplicas no cluster afeta diretamente o balanceamento de réplicas e a localidade dos dados. À medida que novos dados são escritos no sistema de arquivos, é comum que a distribuição das réplicas entre os nodos fique desequilibrada. O HDFS Balancer é a solução oficial para o balanceamento de dados por meio do rearranjo das réplicas já armazenadas no cluster. No entanto, sua política de operação atual não considera as características e necessidades específicas das aplicações. Além disso, cabe ao administrador monitorar o estado do HDFS e, quando julgar necessário, executar o balanceador, o que cria uma dependência manual e ineficiente em muitas situações. Para endereçar tais limitações, este trabalho apresenta a DARB, uma arquitetura dinâmica que promove o balanceamento reativo e proativo. Para a parte reativa, foi desenvolvida a PRBP, uma política personalizada com base em prioridades para o HDFS Balancer. A PRBP é formada por um sistema de prioridades adaptável e configurável, a partir do qual foram definidas regras de associação que permitem o uso de múltiplas prioridades em simultâneo. Em conjunto com as regras, guidelines de uso foram formalizadas e avaliadas experimentalmente, validando o comportamento e a aplicabilidade da PRBP. Já para a parte proativa da DARB, foi desenvolvida uma estratégia orientada a eventos que visa tornar transparente o processo de balanceamento de réplicas no HDFS. Para isso, criou-se um modelo de observação de métricas e uma estrutura que, por meio de eventos de disparo, determina automaticamente quando ações corretivas devem ser tomadas no sistema de arquivos. Os resultados da avaliação reforçam que a solução proposta remove a necessidade de configuração e uso manual do HDFS Balancer, enquanto atua ativamente para manter o cluster em umestadobalanceado emproldeperspectivas de desempenho, confiabilidade e disponibilidade dos dados. Desse modo, a DARB apresenta-se como uma solução especializada, flexibilizando o processo de balanceamento e introduzindo ao HDFS o conceito de balanceamento de réplicas sensível ao contexto.
Coleções
Os arquivos de licença a seguir estão associados a este item: