Pipeline metagenômico mom o uso de algoritmo de compressão lossy e matching heurístico não determinístico

Carregando...
Imagem de Miniatura
Data
2022
Título da Revista
ISSN da Revista
Título de Volume
Editor
Resumo
Introdução: o processamento de dados metagenômicos é um grande desafio para a genética e bioinformática. De forma geral, o grande volume de dados combinado com a natureza das mutações pode impactar fortemente no desempenho das aplicações de alinhamento de sequências de nucleotídeos. Nos últimos anos, o estudo metagenômico evoluiu para o diagnóstico de agentes etiológicos, especialmente em casos de infecções de difícil descoberta e tratamento. Sabe-se que quanto antes houver o diagnóstico do agente infectante, maiores são as chances de desfecho positivo para o paciente. O processo metagenômico faz uso intenso da computação e o avanço das técnicas computacionais trazem benefícios práticos no tratamento das infecções. Objetivo: esta tese propõe um mecanismo de redução de banco de dados, com perda (lossy), de forma que o volume de nucleotídeos seja otimizado, sem prejudicar a sensibilidade da busca pelos organismos de interesse. Esta compactação é utilizada para acelerar o processo de combinação de sequências (alinhamento) e produz resultados mais sensíveis em menor espaço de tempo. Metodologia: a técnica explora a característica natural do DNA/RNA onde um ou mais nucleotídeos modificados (mutações), removidos e adicionados (indels) não significam, obrigatoriamente, um identificador biológico/genético divergente de sua base de referência. Esta característica, aliada ao alfabeto reduzido de quatro letras (A, C, G e T), é peça-chave para a construção da técnica computacional proposta. Apesar de poucas letras, a combinação entre os quatro nucleotídeos é o código-fonte de todo ser vivo, possuindo milhões de combinações. Sequências de DNA podem conter milhares ou até milhões de nucleotídeos sendo que o DNA humano, por exemplo, possui mais de 3 bilhões de bases. A técnica proposta consiste na construção de uma espécie de onda. Os nucleotídeos de mesma base modulam a frequência e produzem sequências de mesmo período. Resultados: ao final do processo de redução da base, os experimentos mostram que há importante compactação na massa de dados (80% em alguns casos) e, por consequência, melhor performance como um todo. Esta redução significa que os processos computacionais envolvidos com os algoritmos de alinhamento utilizarão menor tempo de CPU (menos instruções) e também menos memória RAM, permitindo que mais dados possam ser computados no mesmo intervalo de tempo. Em experimentos comparativos com a ferramenta Blast, no alinhamento de um sequenciamento metagenômico (run), o resultado mostra uma performance acelerada em 10x, podendo ainda ampliar centenas de vezes se considerar outras estratégias como tabelas hash, já utilizadas por outras ferramentas de alinhamento metagenômico.
Descrição
Tese (Doutorado)-Programa de Pós-Graduação em Ciências da Saúde, Fundação Universidade Federal de Ciências da Saúde de Porto Alegre.
Palavras-chave
Metagenômica, Diagnóstico, Bioinformática, Algoritmo, [en] Metagenomics, [en] Diagnosis, [en] Computational Biology
Citação
Coleções