Thompson, Claudia ElizabethCervi, Gustavo Henrique2023-05-302023-10-092023-05-302023-10-092022https://repositorio.ufcspa.edu.br/handle/123456789/2099Tese (Doutorado)-Programa de Pós-Graduação em Ciências da Saúde, Fundação Universidade Federal de Ciências da Saúde de Porto Alegre.Introdução: o processamento de dados metagenômicos é um grande desafio para a genética e bioinformática. De forma geral, o grande volume de dados combinado com a natureza das mutações pode impactar fortemente no desempenho das aplicações de alinhamento de sequências de nucleotídeos. Nos últimos anos, o estudo metagenômico evoluiu para o diagnóstico de agentes etiológicos, especialmente em casos de infecções de difícil descoberta e tratamento. Sabe-se que quanto antes houver o diagnóstico do agente infectante, maiores são as chances de desfecho positivo para o paciente. O processo metagenômico faz uso intenso da computação e o avanço das técnicas computacionais trazem benefícios práticos no tratamento das infecções. Objetivo: esta tese propõe um mecanismo de redução de banco de dados, com perda (lossy), de forma que o volume de nucleotídeos seja otimizado, sem prejudicar a sensibilidade da busca pelos organismos de interesse. Esta compactação é utilizada para acelerar o processo de combinação de sequências (alinhamento) e produz resultados mais sensíveis em menor espaço de tempo. Metodologia: a técnica explora a característica natural do DNA/RNA onde um ou mais nucleotídeos modificados (mutações), removidos e adicionados (indels) não significam, obrigatoriamente, um identificador biológico/genético divergente de sua base de referência. Esta característica, aliada ao alfabeto reduzido de quatro letras (A, C, G e T), é peça-chave para a construção da técnica computacional proposta. Apesar de poucas letras, a combinação entre os quatro nucleotídeos é o código-fonte de todo ser vivo, possuindo milhões de combinações. Sequências de DNA podem conter milhares ou até milhões de nucleotídeos sendo que o DNA humano, por exemplo, possui mais de 3 bilhões de bases. A técnica proposta consiste na construção de uma espécie de onda. Os nucleotídeos de mesma base modulam a frequência e produzem sequências de mesmo período. Resultados: ao final do processo de redução da base, os experimentos mostram que há importante compactação na massa de dados (80% em alguns casos) e, por consequência, melhor performance como um todo. Esta redução significa que os processos computacionais envolvidos com os algoritmos de alinhamento utilizarão menor tempo de CPU (menos instruções) e também menos memória RAM, permitindo que mais dados possam ser computados no mesmo intervalo de tempo. Em experimentos comparativos com a ferramenta Blast, no alinhamento de um sequenciamento metagenômico (run), o resultado mostra uma performance acelerada em 10x, podendo ainda ampliar centenas de vezes se considerar outras estratégias como tabelas hash, já utilizadas por outras ferramentas de alinhamento metagenômico.pt-BRAcesso Aberto ImediatoMetagenômicaDiagnósticoBioinformáticaAlgoritmo[en] Metagenomics[en] Diagnosis[en] Computational BiologyPipeline metagenômico mom o uso de algoritmo de compressão lossy e matching heurístico não determinísticoTese