Escalonamento adaptativo para o Apache Hadoop

Cassales, Guilherme Weigert

dc.creator	Cassales, Guilherme Weigert
dc.date.accessioned	2017-11-13T11:43:37Z
dc.date.available	2017-11-13T11:43:37Z
dc.date.issued	2016-03-11
dc.identifier.uri	http://repositorio.ufsm.br/handle/1/12025
dc.description.abstract	Many alternatives have been employed in order to process all the data generated by current applications in a timely manner. One of these alternatives, the Apache Hadoop, combines parallel and distributed processing with the MapReduce paradigm in order to provide an environment that is able to process a huge data volume using a simple programming model. However, Apache Hadoop has been designed for dedicated and homogeneous clusters, a limitation that creates challenges for those who wish to use the framework in other circumstances. Often, acquiring a dedicated cluster can be impracticable due to the cost, and the acquisition of reposition parts can be a threat to the homogeneity of a cluster. In these cases, an option commonly used by the companies is the usage of idle computing resources in their network, however the original distribution of Hadoop would show serious performance issues in these conditions. Thus, this study was aimed to improve Hadoop’s capacity of adapting to pervasive and shared environments, where the availability of resources will undergo variations during the execution. Therefore, context-awareness techniques were used in order to collect information about the available capacity in each worker node and distributed communication techniques were used to update this information on scheduler. The joint usage of both techniques aimed at minimizing and/or eliminating the overload that would happen on shared nodes, resulting in an improvement of up to 50% on performance in a shared cluster, when compared to the original distribution, and indicated that a simple solution can positively impact the scheduling, increasing the variety of environments where the use of Hadoop is possible.	eng
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES	por
dc.language	por	por
dc.publisher	Universidade Federal de Santa Maria	por
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Apache Hadoop	por
dc.subject	Escalonamento	por
dc.subject	Sensibilidade ao contexto	por
dc.subject	Scheduling	eng
dc.subject	Context-aware	eng
dc.title	Escalonamento adaptativo para o Apache Hadoop	por
dc.title.alternative	Adaptative scheduling for Apache Hadoop	eng
dc.type	Dissertação	por
dc.description.resumo	Diversas alternativas têm sido empregadas para o processamento, em tempo hábil, da grande quantidade de dados que é gerada pelas aplicações atuais. Uma destas alternativas, o Apache Hadoop, combina processamento paralelo e distribuído com o paradigma MapReduce para fornecer um ambiente capaz de processar um grande volume de informações através de um modelo de programação simplificada. No entanto, o Apache Hadoop foi projetado para utilização em clusters dedicados e homogêneos, uma limitação que gera desafios para aqueles que desejam utilizá-lo sob outras circunstâncias. Muitas vezes um cluster dedicado pode ser inviável pelo custo de aquisição e a homogeneidade pode ser ameaçada devido à dificuldade de adquirir peças de reposição. Em muitos desses casos, uma opção encontrada pelas empresas é a utilização dos recursos computacionais ociosos em sua rede, porém a distribuição original do Hadoop apresentaria sérios problemas de desempenho nestas condições. Sendo assim, este estudo propôs melhorar a capacidade do Hadoop em adaptar-se a ambientes, pervasivos e compartilhados, onde a disponibilidade de recursos sofrerá variações no decorrer da execução. Para tanto, utilizaram-se técnicas de sensibilidade ao contexto para coletar informações sobre a capacidade disponível nos nós trabalhadores e técnicas de comunicação distribuída para atualizar estas informações no escalonador. A utilização conjunta dessas técnicas teve como objetivo a minimização e/ou eliminação da sobrecarga que seria causada em nós com compartilhamento, resultando em uma melhora de até 50% no desempenho em um cluster compartilhado, quando comparado com a distribuição original, e indicou que uma solução simples pode impactar positivamente o escalonamento, aumentando a variedade de ambientes onde a utilização do Hadoop é possível.	por
dc.contributor.advisor1	Charao, Andrea Schwertner
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/8251676116103188	por
dc.contributor.referee1	Stein, Benhur de Oliveira
dc.contributor.referee1Lattes	http://lattes.cnpq.br/4640320476003795	por
dc.contributor.referee2	Senger, Hermes
dc.contributor.referee2Lattes	http://lattes.cnpq.br/3691742159298316	por
dc.creator.Lattes	http://lattes.cnpq.br/6191125593821481	por
dc.publisher.country	Brasil	por
dc.publisher.department	Ciência da Computação	por
dc.publisher.initials	UFSM	por
dc.publisher.program	Programa de Pós-Graduação em Informática	por
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	por
dc.publisher.unidade	Centro de Tecnologia	por

Arquivos deste item

Nome:: DIS_PPGINFORMATICA_2016_CASSAL ...
Tamanho:: 3.721Mb
Formato:: PDF
Descrição:: Dissertação de Mestrado

Visualizar/Abrir

Nome:: license_rdf
Tamanho:: 804bytes
Formato:: application/rdf+xml

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Programa de Pós-Graduação em Informática [129]
Coleção de dissertações do Programa de Pós-Graduação em Informática

Mostrar registro simples

Exceto quando indicado o contrário, a licença deste item é descrito como Attribution-NonCommercial-NoDerivatives 4.0 International