Uma implementação baseada em tarefas e fluxo de dados do método de Lattice-Boltzmann

Freytag, Gabriel

dc.creator	Freytag, Gabriel
dc.date.accessioned	2018-11-20T21:33:47Z
dc.date.available	2018-11-20T21:33:47Z
dc.date.issued	2018-02-22
dc.identifier.uri	http://repositorio.ufsm.br/handle/1/14872
dc.description.abstract	Lattice-Boltzmann is an iterative numerical method for mesoscopic modeling and simulation of fluid flow dynamics. This method simulates the discrete properties of physical systems and, for the simulations to be performed in a computationally acceptable time, requires a great computational power. Several studies in the literature are dedicated to parallelizing and evaluating the performance of the Lattice-Boltzmann method applied to a variety of problems using a wide range of high-performance computing architectures ranging from shared, distributed and hybrid memory architectures to GPU accelerators, Xeon Phi, among others. In today’s scenario where processor manufacturers practically double the number of transistors on a single chip with each new generation dedicating them to core replication, the efficient exploitation of the increasing parallelism offered especially by shared memory high performance computing architectures depends on the adoption of parallelism techniques that optimize the execution of applications in these architectures. One of the most popular parallelism techniques in this type of architecture is the parallelism of loop iterations using the OpenMP API. In spite of providing significant performance gains, the parallelism offered by this type of architecture is not always exploited in its entirety and techniques such as task parallelism can be used to optimize the exploitation of parallelism by applications. Although task parallelism has been supported since version 3.0 of the OpenMP API, the concept of data dependency between tasks has only been introduced in version 4.0. By specifying the data dependencies it is possible to add constraints to the scheduling of tasks so that the execution order is determined according to the read and write operations performed by each task in memory addresses, thus avoiding inconsistencies in the parallel execution of tasks. Because it is an iterative method, the parallelization of the Lattice-Boltzmann method using tasks requires that at each new iteration the different tasks be synchronized, which can be performed from the determination of the dependencies of each task. Therefore, the objective of this work is to present and evaluate the performance of a task-based and data flow implementation of the Lattice-Boltzmann method using OpenMP tasks with dependencies. The results of experiments performed on a NUMA shared memory architecture composed of 48 processing cores show that the performance of the task-based implementation with dependencies was up to 22.49% better when compared to the performance achieved by an implementation based on loop-level parallelism.	eng
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES	por
dc.language	por	por
dc.publisher	Universidade Federal de Santa Maria	por
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Lattice-Boltzmann	por
dc.subject	Paralelismo de tarefas	por
dc.subject	Fluxo de dados	por
dc.subject	OpenMP	por
dc.subject	NUMA	por
dc.subject	Task parallelism	eng
dc.subject	Data flow	eng
dc.title	Uma implementação baseada em tarefas e fluxo de dados do método de Lattice-Boltzmann	por
dc.type	Dissertação	por
dc.description.resumo	Lattice-Boltzmann é um método numérico iterativo para a modelagem mesoscópica e simulação da dinâmica de fluxos de fluidos. Esse método simula as propriedades discretas de sistemas físicos e, para que as simulações sejam realizadas em um tempo computacionalmente aceitável, exige um grande poder computacional. Diversos estudos na literatura dedicam-se à paralelização e avaliação do desempenho do método de Lattice-Boltzmann aplicado a uma variedade de problemas utilizando uma ampla gama de arquiteturas de computação de alto desempenho, desde arquiteturas de memória compartilhada, distribuída e híbrida até aceleradores GPU, Xeon Phi, entre outros. No cenário atual em que fabricantes de processadores praticamente duplicam a quantidade de transistores em um mesmo chip a cada nova geração dedicando-os à replicação de núcleos, a exploração eficiente do crescente paralelismo oferecido especialmente por arquiteturas de computação de alto desempenho com memória compartilhada depende da adoção de técnicas de paralelismo que otimizem a execução de aplicações nessas arquiteturas. Uma das técnicas de paralelismo mais populares nesse tipo de arquitetura é o paralelismo de iterações de laços de repetição utilizando a API OpenMP. Apesar de proporcionar ganhos significativos de desempenho, o paralelismo oferecido por esse tipo de arquitetura nem sempre é explorado em sua totalidade e técnicas como a de paralelismo de tarefas podem ser utilizadas a fim de otimizar a exploração do paralelismo por aplicações. Embora o paralelismo de tarefas seja suportado desde a versão 3.0 da API OpenMP, o conceito de dependência de dados entre tarefas foi introduzido somente na versão 4.0. Por meio da especificação das dependências de dados é possível adicionar restrições ao escalonamento de tarefas de modo que a ordem de execução seja determinada conforme as operações de leitura e escrita realizadas por cada tarefa em endereços na memória evitando, assim, inconsistências na execução paralela de tarefas. Por se tratar de um método iterativo, a paralelização do método de Lattice-Boltzmann utilizando tarefas exige que a cada nova iteração as diferentes tarefas sejam sincronizadas, que pode ser realizada a partir da determinação das dependências de cada tarefa. Portanto, o objetivo deste trabalho é apresentar e avaliar o desempenho de uma implementação baseada em tarefas e fluxo de dados do método de Lattice-Boltzmann utilizando tarefas OpenMP com dependências. Os resultados experimentais realizados em uma arquitetura de memória compartilhada NUMA composta por 48 núcleos de processamento mostram que o desempenho da implementação baseada em tarefas com dependências foi até 22,49% melhor se comparado ao desempenho obtido por uma implementação baseada no paralelismo de iterações dos laços de repetição.	por
dc.contributor.advisor1	Lima, João Vicente Ferreira
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/6266546896929217	por
dc.contributor.referee1	Charao, Andrea Schwertner
dc.contributor.referee1Lattes	http://lattes.cnpq.br/8251676116103188	por
dc.contributor.referee2	Padoin, Edson Luiz
dc.contributor.referee2Lattes	http://lattes.cnpq.br/9946442723550848	por
dc.creator.Lattes	http://lattes.cnpq.br/2945868074385342	por
dc.publisher.country	Brasil	por
dc.publisher.department	Ciência da Computação	por
dc.publisher.initials	UFSM	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação	por
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	por
dc.publisher.unidade	Centro de Tecnologia	por

Arquivos deste item

Nome:: DIS_PPGCC_2018_FREYTAG_GABRIEL.pdf
Tamanho:: 1.700Mb
Formato:: PDF
Descrição:: Dissertação de Mestrado

Visualizar/Abrir

Nome:: license_rdf
Tamanho:: 805bytes
Formato:: application/rdf+xml

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Programa de Pós-Graduação em Ciência da Computação [146]
Coleção de dissertações de Pós-Graduação em Ciência da Computação

Mostrar registro simples

Exceto quando indicado o contrário, a licença deste item é descrito como Attribution-NonCommercial-NoDerivatives 4.0 International