dc.contributor.advisor | Charao, Andrea Schwertner | |
dc.contributor.advisor | Cogo, Vinicius Vielmo | |
dc.creator | Righi, Gabriel Farencena | |
dc.date.accessioned | 2021-07-08T12:29:57Z | |
dc.date.available | 2021-07-08T12:29:57Z | |
dc.date.issued | 2021-02-11 | |
dc.date.submitted | 2021 | |
dc.identifier.uri | http://repositorio.ufsm.br/handle/1/21340 | |
dc.description | Trabalho de conclusão de curso (graduação) - Universidade Federal de Santa
Maria, Centro de Tecnologia, Curso de Ciência da Computação, RS, 2021. | por |
dc.description.abstract | Genomics is an area of genetics that has contributed to several scientific advances, such as
the complete sequencing and analysis of genomes of different species. The data generated
by the sequencing machines are initially stored in text mode in FASTQ format, which they
can reach, for example, about 300GB for a single human cell. Storing and analyzing the
sequence of thousands or millions of organisms is a task that requires the efficient use of
many computational resources, which validates the importance of compression algorithms
for this area. Quality scores (QS) are the most difficult part to compress in genome sequencing
files, because their dictionary is extensive and generates a very large number
of possible combinations. The objective of this work is to propose a data transformation,
the circular deltas (CD), for the quality scores of genome sequencing and to evaluate their
impact on the compression of this type of data. This transformation takes advantage of the
observation that neighboring quality scores vary little from one to the other and explores the
use of modular arithmetic to minimize the representation of these variations. The use of the
entropy calculation expresses the number of bits needed to represent each signal, standing
out as a fundamental part in the evaluation process. As analyzed from the tests performed,
even though the entropy of the QS values were greater than those ND and CD, in the end
the compression was favorable to files with QS lines, allowing a compression ratio higher
than files with ND and CD lines. | eng |
dc.language | por | por |
dc.publisher | Universidade Federal de Santa Maria | por |
dc.rights | Acesso Aberto | por |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.subject | Bioinformática | por |
dc.subject | Armazenamento de dados | por |
dc.subject | Compressão de dados | por |
dc.subject | Entropia | por |
dc.title | Deltas circulares: proposta e avaliação do impacto da aritmética modular na compressão dos índices de qualidade do sequenciamento de genomas | por |
dc.type | Trabalho de Conclusão de Curso de Graduação | por |
dc.degree.local | Santa Maria, RS, Brasil. | por |
dc.description.resumo | A genômica é uma área da genética que vem contribuindo para diversos avanços científicos,
como, o do sequenciamento completo e análise de genomas de diversas espécies.
Os dados gerados pelas máquinas de sequenciamento são inicialmente armazenados em
modo texto no formato FASTQ, os quais podem chegar, por exemplo, a cerca de 300GB
para uma única célula humana. Armazenar e analisar a sequência de milhares ou milhões
de organismos é uma tarefa que requer o uso eficiente de muitos recursos computacionais,
o que valida a importância de algoritmos de compressão para esta área. Os índices de qualidade
(QS—quality scores em inglês) são a parte mais difícil de comprimir nos arquivos
do sequenciamento de genomas, devido ao seu dicionário ser extenso e gerar um número
muito grande de combinações possíveis. O objetivo deste trabalho é propor uma transformação
de dados, os deltas circulares (CD—circular deltas em inglês), para os índices de
qualidade do sequenciamento de genomas e avaliar o seu impacto na compressão deste
tipo de dados. Essa transformação aproveita-se da observação de que índices de qualidade
vizinhos variam pouco de um para o outro e explora o uso de aritmética modular para
minimizar a representação destas variações. A utilização do calculo da entropia exprime
a quantidade de bits necessários para representar cada sinal, se destacando como peça
fundamental no processo de avaliação. Conforme analisado a partir dos testes executados,
por mais que a entropia dos valores QS fossem maiores que aqueles ND e CD, ao final a
compressão se apresentou favorável a arquivos com linhas QS, permitindo uma razão de
compressão superior ao arquivos com linhas ND e CD. | por |
dc.publisher.country | Brasil | por |
dc.publisher.initials | UFSM | por |
dc.subject.cnpq | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | por |
dc.publisher.unidade | Centro de Tecnologia | por |