Mostrar registro simples

dc.contributor.advisorCharao, Andrea Schwertner
dc.contributor.advisorCogo, Vinicius Vielmo
dc.creatorRighi, Gabriel Farencena
dc.date.accessioned2021-07-08T12:29:57Z
dc.date.available2021-07-08T12:29:57Z
dc.date.issued2021-02-11
dc.date.submitted2021
dc.identifier.urihttp://repositorio.ufsm.br/handle/1/21340
dc.descriptionTrabalho de conclusão de curso (graduação) - Universidade Federal de Santa Maria, Centro de Tecnologia, Curso de Ciência da Computação, RS, 2021.por
dc.description.abstractGenomics is an area of genetics that has contributed to several scientific advances, such as the complete sequencing and analysis of genomes of different species. The data generated by the sequencing machines are initially stored in text mode in FASTQ format, which they can reach, for example, about 300GB for a single human cell. Storing and analyzing the sequence of thousands or millions of organisms is a task that requires the efficient use of many computational resources, which validates the importance of compression algorithms for this area. Quality scores (QS) are the most difficult part to compress in genome sequencing files, because their dictionary is extensive and generates a very large number of possible combinations. The objective of this work is to propose a data transformation, the circular deltas (CD), for the quality scores of genome sequencing and to evaluate their impact on the compression of this type of data. This transformation takes advantage of the observation that neighboring quality scores vary little from one to the other and explores the use of modular arithmetic to minimize the representation of these variations. The use of the entropy calculation expresses the number of bits needed to represent each signal, standing out as a fundamental part in the evaluation process. As analyzed from the tests performed, even though the entropy of the QS values were greater than those ND and CD, in the end the compression was favorable to files with QS lines, allowing a compression ratio higher than files with ND and CD lines.eng
dc.languageporpor
dc.publisherUniversidade Federal de Santa Mariapor
dc.rightsAcesso Abertopor
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectBioinformáticapor
dc.subjectArmazenamento de dadospor
dc.subjectCompressão de dadospor
dc.subjectEntropiapor
dc.titleDeltas circulares: proposta e avaliação do impacto da aritmética modular na compressão dos índices de qualidade do sequenciamento de genomaspor
dc.typeTrabalho de Conclusão de Curso de Graduaçãopor
dc.degree.localSanta Maria, RS, Brasil.por
dc.description.resumoA genômica é uma área da genética que vem contribuindo para diversos avanços científicos, como, o do sequenciamento completo e análise de genomas de diversas espécies. Os dados gerados pelas máquinas de sequenciamento são inicialmente armazenados em modo texto no formato FASTQ, os quais podem chegar, por exemplo, a cerca de 300GB para uma única célula humana. Armazenar e analisar a sequência de milhares ou milhões de organismos é uma tarefa que requer o uso eficiente de muitos recursos computacionais, o que valida a importância de algoritmos de compressão para esta área. Os índices de qualidade (QS—quality scores em inglês) são a parte mais difícil de comprimir nos arquivos do sequenciamento de genomas, devido ao seu dicionário ser extenso e gerar um número muito grande de combinações possíveis. O objetivo deste trabalho é propor uma transformação de dados, os deltas circulares (CD—circular deltas em inglês), para os índices de qualidade do sequenciamento de genomas e avaliar o seu impacto na compressão deste tipo de dados. Essa transformação aproveita-se da observação de que índices de qualidade vizinhos variam pouco de um para o outro e explora o uso de aritmética modular para minimizar a representação destas variações. A utilização do calculo da entropia exprime a quantidade de bits necessários para representar cada sinal, se destacando como peça fundamental no processo de avaliação. Conforme analisado a partir dos testes executados, por mais que a entropia dos valores QS fossem maiores que aqueles ND e CD, ao final a compressão se apresentou favorável a arquivos com linhas QS, permitindo uma razão de compressão superior ao arquivos com linhas ND e CD.por
dc.publisher.countryBrasilpor
dc.publisher.initialsUFSMpor
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpor
dc.publisher.unidadeCentro de Tecnologiapor


Arquivos deste item

Thumbnail
Thumbnail

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples

Acesso Aberto
Exceto quando indicado o contrário, a licença deste item é descrito como Acesso Aberto