Deltas circulares: proposta e avaliação do impacto da aritmética modular na compressão dos índices de qualidade do sequenciamento de genomas
Resumo
A genômica é uma área da genética que vem contribuindo para diversos avanços científicos,
como, o do sequenciamento completo e análise de genomas de diversas espécies.
Os dados gerados pelas máquinas de sequenciamento são inicialmente armazenados em
modo texto no formato FASTQ, os quais podem chegar, por exemplo, a cerca de 300GB
para uma única célula humana. Armazenar e analisar a sequência de milhares ou milhões
de organismos é uma tarefa que requer o uso eficiente de muitos recursos computacionais,
o que valida a importância de algoritmos de compressão para esta área. Os índices de qualidade
(QS—quality scores em inglês) são a parte mais difícil de comprimir nos arquivos
do sequenciamento de genomas, devido ao seu dicionário ser extenso e gerar um número
muito grande de combinações possíveis. O objetivo deste trabalho é propor uma transformação
de dados, os deltas circulares (CD—circular deltas em inglês), para os índices de
qualidade do sequenciamento de genomas e avaliar o seu impacto na compressão deste
tipo de dados. Essa transformação aproveita-se da observação de que índices de qualidade
vizinhos variam pouco de um para o outro e explora o uso de aritmética modular para
minimizar a representação destas variações. A utilização do calculo da entropia exprime
a quantidade de bits necessários para representar cada sinal, se destacando como peça
fundamental no processo de avaliação. Conforme analisado a partir dos testes executados,
por mais que a entropia dos valores QS fossem maiores que aqueles ND e CD, ao final a
compressão se apresentou favorável a arquivos com linhas QS, permitindo uma razão de
compressão superior ao arquivos com linhas ND e CD.
Coleções
Os arquivos de licença a seguir estão associados a este item: