Pipeline metagenômico mom o uso de algoritmo de compressão lossy e matching heurístico não determinístico

Cervi, Gustavo Henrique

Pipeline metagenômico mom o uso de algoritmo de compressão lossy e matching heurístico não determinístico

dc.contributor.advisor	Thompson, Claudia Elizabeth	pt_BR
dc.contributor.advisor-co	Flores, Cecilia Dias	pt_BR
dc.contributor.author	Cervi, Gustavo Henrique	pt_BR
dc.date.accessioned	2023-05-30T20:04:15Z
dc.date.accessioned	2023-10-09T16:32:18Z
dc.date.available	2023-05-30T20:04:15Z
dc.date.available	2023-10-09T16:32:18Z
dc.date.date-insert	2023-05-30
dc.date.issued	2022
dc.description	Tese (Doutorado)-Programa de Pós-Graduação em Ciências da Saúde, Fundação Universidade Federal de Ciências da Saúde de Porto Alegre.	pt_BR
dc.description.abstract	Introdução: o processamento de dados metagenômicos é um grande desafio para a genética e bioinformática. De forma geral, o grande volume de dados combinado com a natureza das mutações pode impactar fortemente no desempenho das aplicações de alinhamento de sequências de nucleotídeos. Nos últimos anos, o estudo metagenômico evoluiu para o diagnóstico de agentes etiológicos, especialmente em casos de infecções de difícil descoberta e tratamento. Sabe-se que quanto antes houver o diagnóstico do agente infectante, maiores são as chances de desfecho positivo para o paciente. O processo metagenômico faz uso intenso da computação e o avanço das técnicas computacionais trazem benefícios práticos no tratamento das infecções. Objetivo: esta tese propõe um mecanismo de redução de banco de dados, com perda (lossy), de forma que o volume de nucleotídeos seja otimizado, sem prejudicar a sensibilidade da busca pelos organismos de interesse. Esta compactação é utilizada para acelerar o processo de combinação de sequências (alinhamento) e produz resultados mais sensíveis em menor espaço de tempo. Metodologia: a técnica explora a característica natural do DNA/RNA onde um ou mais nucleotídeos modificados (mutações), removidos e adicionados (indels) não significam, obrigatoriamente, um identificador biológico/genético divergente de sua base de referência. Esta característica, aliada ao alfabeto reduzido de quatro letras (A, C, G e T), é peça-chave para a construção da técnica computacional proposta. Apesar de poucas letras, a combinação entre os quatro nucleotídeos é o código-fonte de todo ser vivo, possuindo milhões de combinações. Sequências de DNA podem conter milhares ou até milhões de nucleotídeos sendo que o DNA humano, por exemplo, possui mais de 3 bilhões de bases. A técnica proposta consiste na construção de uma espécie de onda. Os nucleotídeos de mesma base modulam a frequência e produzem sequências de mesmo período. Resultados: ao final do processo de redução da base, os experimentos mostram que há importante compactação na massa de dados (80% em alguns casos) e, por consequência, melhor performance como um todo. Esta redução significa que os processos computacionais envolvidos com os algoritmos de alinhamento utilizarão menor tempo de CPU (menos instruções) e também menos memória RAM, permitindo que mais dados possam ser computados no mesmo intervalo de tempo. Em experimentos comparativos com a ferramenta Blast, no alinhamento de um sequenciamento metagenômico (run), o resultado mostra uma performance acelerada em 10x, podendo ainda ampliar centenas de vezes se considerar outras estratégias como tabelas hash, já utilizadas por outras ferramentas de alinhamento metagenômico.	pt_BR
dc.description.abstract-en	Introduction: metagenomic data processing is a major challenge for genetics and bioinformatics. The large volume of data combined with the nature of mutations can strongly impact the performance of nucleotide sequence alignment applications. In recent years, the metagenomic study has evolved towards the diagnosis of etiologic agents, especially in cases of infections that are difficult to discover and treat. It is known that the earlier the diagnosis of the infecting agent is made, the greater the chances of a positive outcome for the patient. The metagenomic process makes intensive use of computing and the advancement of computational techniques brings practical benefits in the treatment of infections. Objective: this thesis proposes a lossy database reduction mechanism, optimizing the volume of nucleotides, without impairing the sensitivity of the search for organisms of interest. This compression is used to speed up the process of combining sequences (alignment) and produces more sensitive results in a shorter amount of time. Methodology: the technique explores the natural characteristic of DNA/RNA where one or more modified nucleotides (mutations), removed and added (indels) do not necessarily mean a biological/genetic identifier that diverges from its reference base. This feature, combined with the reduced alphabet of four letters (A, C, G and T), is a key element for the construction of the proposed computational technique. Despite having few letters, the combination between the four nucleotides is the source code of every living being, having millions of combinations. DNA sequences can contain thousands or even millions of nucleotides and human DNA, for example, has more than 3 billion bases. The proposed technique consists in the construction of a kind of wave. Nucleotides with the same base modulate frequency and produce sequences of the same period. Results: at the end of the database reduction process, the experiments show that there is important compression in the data mass (80% in some cases) and, consequently, better performance as a whole. This reduction means that the computational processes involved with the alignment algorithms will use less CPU time (fewer instructions) and also less RAM memory, allowing more data to be computed in the same time interval. In comparative experiments with the Blast tool, in the alignment of a metagenomic sequencing (run), the result shows an accelerated performance by 10x, and can still be magnified hundreds of times if we consider other strategies such as hash tables, already used by other metagenomic alignment tools.	pt_BR
dc.description.sponsorship	Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)	pt_BR
dc.identifier.uri	https://repositorio.ufcspa.edu.br/handle/123456789/2099
dc.language.iso	pt_BR	pt_BR
dc.relation.requires	TEXTO - Adobe Reader	pt_BR
dc.rights	Acesso Aberto Imediato	pt_BR
dc.subject	Metagenômica	pt_BR
dc.subject	Diagnóstico	pt_BR
dc.subject	Bioinformática	pt_BR
dc.subject	Algoritmo	pt_BR
dc.subject	[en] Metagenomics	en
dc.subject	[en] Diagnosis	en
dc.subject	[en] Computational Biology	en
dc.title	Pipeline metagenômico mom o uso de algoritmo de compressão lossy e matching heurístico não determinístico	pt_BR
dc.type	Tese	pt_BR

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: [TESE] Cervi, Gustavo Henrique (C).pdf
Tamanho:: 1.83 MB
Formato:: Adobe Portable Document Format
Descrição:: Texto completo

Baixar

Coleções

PPGCS - Teses