Pipeline metagenômico mom o uso de algoritmo de compressão lossy e matching heurístico não determinístico

Carregando...
Imagem de Miniatura

Data

Título da Revista

ISSN da Revista

Título de Volume

Editora

Resumo

Introdução: o processamento de dados metagenômicos é um grande desafio para a genética e bioinformática. De forma geral, o grande volume de dados combinado com a natureza das mutações pode impactar fortemente no desempenho das aplicações de alinhamento de sequências de nucleotídeos. Nos últimos anos, o estudo metagenômico evoluiu para o diagnóstico de agentes etiológicos, especialmente em casos de infecções de difícil descoberta e tratamento. Sabe-se que quanto antes houver o diagnóstico do agente infectante, maiores são as chances de desfecho positivo para o paciente. O processo metagenômico faz uso intenso da computação e o avanço das técnicas computacionais trazem benefícios práticos no tratamento das infecções. Objetivo: esta tese propõe um mecanismo de redução de banco de dados, com perda (lossy), de forma que o volume de nucleotídeos seja otimizado, sem prejudicar a sensibilidade da busca pelos organismos de interesse. Esta compactação é utilizada para acelerar o processo de combinação de sequências (alinhamento) e produz resultados mais sensíveis em menor espaço de tempo. Metodologia: a técnica explora a característica natural do DNA/RNA onde um ou mais nucleotídeos modificados (mutações), removidos e adicionados (indels) não significam, obrigatoriamente, um identificador biológico/genético divergente de sua base de referência. Esta característica, aliada ao alfabeto reduzido de quatro letras (A, C, G e T), é peça-chave para a construção da técnica computacional proposta. Apesar de poucas letras, a combinação entre os quatro nucleotídeos é o código-fonte de todo ser vivo, possuindo milhões de combinações. Sequências de DNA podem conter milhares ou até milhões de nucleotídeos sendo que o DNA humano, por exemplo, possui mais de 3 bilhões de bases. A técnica proposta consiste na construção de uma espécie de onda. Os nucleotídeos de mesma base modulam a frequência e produzem sequências de mesmo período. Resultados: ao final do processo de redução da base, os experimentos mostram que há importante compactação na massa de dados (80% em alguns casos) e, por consequência, melhor performance como um todo. Esta redução significa que os processos computacionais envolvidos com os algoritmos de alinhamento utilizarão menor tempo de CPU (menos instruções) e também menos memória RAM, permitindo que mais dados possam ser computados no mesmo intervalo de tempo. Em experimentos comparativos com a ferramenta Blast, no alinhamento de um sequenciamento metagenômico (run), o resultado mostra uma performance acelerada em 10x, podendo ainda ampliar centenas de vezes se considerar outras estratégias como tabelas hash, já utilizadas por outras ferramentas de alinhamento metagenômico.

Descrição

Tese (Doutorado)-Programa de Pós-Graduação em Ciências da Saúde, Fundação Universidade Federal de Ciências da Saúde de Porto Alegre.

Citação

Coleções

Avaliação

Revisão

Suplementado Por

Referenciado Por

Universidade Federal de Ciências da Saúde de Porto Alegre
Biblioteca Paulo Lacerda de Azevedo

Logotipo Setic