Escalonamento adaptativo para o Apache Hadoop
Resumo
Diversas alternativas têm sido empregadas para o processamento, em tempo hábil, da
grande quantidade de dados que é gerada pelas aplicações atuais. Uma destas
alternativas, o Apache Hadoop, combina processamento paralelo e distribuído com o
paradigma MapReduce para fornecer um ambiente capaz de processar um grande
volume de informações através de um modelo de programação simplificada. No
entanto, o Apache Hadoop foi projetado para utilização em clusters dedicados e
homogêneos, uma limitação que gera desafios para aqueles que desejam utilizá-lo sob
outras circunstâncias. Muitas vezes um cluster dedicado pode ser inviável pelo custo de
aquisição e a homogeneidade pode ser ameaçada devido à dificuldade de adquirir peças
de reposição. Em muitos desses casos, uma opção encontrada pelas empresas é a
utilização dos recursos computacionais ociosos em sua rede, porém a distribuição
original do Hadoop apresentaria sérios problemas de desempenho nestas condições.
Sendo assim, este estudo propôs melhorar a capacidade do Hadoop em adaptar-se a
ambientes, pervasivos e compartilhados, onde a disponibilidade de recursos sofrerá
variações no decorrer da execução. Para tanto, utilizaram-se técnicas de sensibilidade ao
contexto para coletar informações sobre a capacidade disponível nos nós trabalhadores e
técnicas de comunicação distribuída para atualizar estas informações no escalonador. A
utilização conjunta dessas técnicas teve como objetivo a minimização e/ou eliminação
da sobrecarga que seria causada em nós com compartilhamento, resultando em uma
melhora de até 50% no desempenho em um cluster compartilhado, quando comparado
com a distribuição original, e indicou que uma solução simples pode impactar
positivamente o escalonamento, aumentando a variedade de ambientes onde a utilização
do Hadoop é possível.
Coleções
Os arquivos de licença a seguir estão associados a este item: