Pipeline metagenômico mom o uso de algoritmo de compressão lossy e matching heurístico não determinístico
Carregando...
Data
2022
Autores
Título da Revista
ISSN da Revista
Título de Volume
Editora
Editor Literário
Resumo
Introdução: o processamento de dados metagenômicos é um grande desafio para a
genética e bioinformática. De forma geral, o grande volume de dados combinado
com a natureza das mutações pode impactar fortemente no desempenho das
aplicações de alinhamento de sequências de nucleotídeos. Nos últimos anos, o
estudo metagenômico evoluiu para o diagnóstico de agentes etiológicos,
especialmente em casos de infecções de difícil descoberta e tratamento. Sabe-se
que quanto antes houver o diagnóstico do agente infectante, maiores são as
chances de desfecho positivo para o paciente. O processo metagenômico faz uso
intenso da computação e o avanço das técnicas computacionais trazem benefícios
práticos no tratamento das infecções. Objetivo: esta tese propõe um mecanismo de
redução de banco de dados, com perda (lossy), de forma que o volume de
nucleotídeos seja otimizado, sem prejudicar a sensibilidade da busca pelos
organismos de interesse. Esta compactação é utilizada para acelerar o processo de
combinação de sequências (alinhamento) e produz resultados mais sensíveis em
menor espaço de tempo. Metodologia: a técnica explora a característica natural do
DNA/RNA onde um ou mais nucleotídeos modificados (mutações), removidos e
adicionados (indels) não significam, obrigatoriamente, um identificador
biológico/genético divergente de sua base de referência. Esta característica, aliada
ao alfabeto reduzido de quatro letras (A, C, G e T), é peça-chave para a construção
da técnica computacional proposta. Apesar de poucas letras, a combinação entre os
quatro nucleotídeos é o código-fonte de todo ser vivo, possuindo milhões de
combinações. Sequências de DNA podem conter milhares ou até milhões de
nucleotídeos sendo que o DNA humano, por exemplo, possui mais de 3 bilhões de
bases. A técnica proposta consiste na construção de uma espécie de onda. Os
nucleotídeos de mesma base modulam a frequência e produzem sequências de
mesmo período. Resultados: ao final do processo de redução da base, os
experimentos mostram que há importante compactação na massa de dados (80%
em alguns casos) e, por consequência, melhor performance como um todo. Esta
redução significa que os processos computacionais envolvidos com os algoritmos de
alinhamento utilizarão menor tempo de CPU (menos instruções) e também menos
memória RAM, permitindo que mais dados possam ser computados no mesmo
intervalo de tempo. Em experimentos comparativos com a ferramenta Blast, no
alinhamento de um sequenciamento metagenômico (run), o resultado mostra uma
performance acelerada em 10x, podendo ainda ampliar centenas de vezes se
considerar outras estratégias como tabelas hash, já utilizadas por outras ferramentas
de alinhamento metagenômico.
Descrição
Tese (Doutorado)-Programa de Pós-Graduação em Ciências da Saúde, Fundação Universidade Federal de Ciências da Saúde de Porto Alegre.
Palavras-chave
Metagenômica, Diagnóstico, Bioinformática, Algoritmo, [en] Metagenomics, [en] Diagnosis, [en] Computational Biology