Please use this identifier to cite or link to this item: https://repositorio.ufcspa.edu.br/jspui/handle/123456789/566
Title: Mineração de dados como ferramenta para análise de base de dados de genoma do vírus influenza A
Authors: Corrêa, Fernanda Côrte Real
metadata.dc.contributor.advisor: Cazella, Sílvio César
metadata.dc.contributor.advisor-co: Veiga, Ana Beatriz Gorini da
Issue Date: 2017
Keywords: Vírus da Influenza A
Mineração de Dados
Bases de Dados Factuais
Inteligência Artificial
Biologia Computacional
[en] Influenza A virus
[en] Data Mining
[en] Databases, Factual
[en] Artificial Intelligence
[en] Computational Biology
Abstract: A mineração de dados é uma ferramenta com grande potencial de aplicabilidade na área de bioinformática, pois permite que volumes robustos de dados sejam processados de forma otimizada. O número de dados biológicos, como por exemplo dados genômicos gerados com as novas tecnologias de sequenciamento, vem crescendo de forma exponencial, sendo necessário cada vez mais o uso de tecnologias computacionais para a interpretação dos mesmos. Os genomas virais constituem uma fonte para o desenvolvimento e uso de novas ferramentas computacionais, devido à vasta quantidade de informação acessível em bases de dados online. Este trabalho teve como objetivo analisar uma base pública de dados de genoma de vírus influenza com o emprego de técnicas de Mineração de Dados. Um banco contendo 232.505 dados de genoma de influenza A e B foi obtido através do site GenBank e pré- processado a fim de eliminar dados incompletos e transformar os dados para o formato de entrada dos algoritmos selecionados. Após limpeza, os dados de genoma do vírus influenza A foram minerados com o software Weka, com o uso dos algoritmos Apriori e RandomForest para a realização de tarefas de regras de associação e de classificação, respectivamente. A mineração dos dados resultou na correta identificação do influenza A H1N1pdm09. Além disso, os modelos de classificação foram capazes de classificar o subtipo de 74% das amostras de H1N1 (64%) e H3N2 (88%), e de diferenciar o hospedeiro de 77% das amostras aviárias (63%) e humanas (87%). Conclui-se que a Mineração de Dados se apresenta como uma promissora ferramenta para a descoberta de novos conhecimentos na área da saúde, e que o software Weka possui grande potencial para a aplicação de tarefas de Mineração de Dados nessa área, com capacidade de classificar os dois subtipos mais prevalentes de influenza A e diferenciar entre os dois hospedeiros mais comuns, a partir de dados sequências genômicas do vírus influenza disponíveis em bases de dados públicas.
metadata.dc.description.abstract-en: Data mining is a tool with great potential for application in the field of bioinformatics, as it allows extensive volumes of data to be processed in a short period of time. The amount of biological data, such as genomic data generated with the new sequencing technologies, is growing exponentially, and it is increasingly necessary to use computational methodologies for the interpretation of data. Viral genomes are a good source for the development and use of new computational tools due to the vast amount of information available in online databases. This study aimed to analyze a public database of influenza virus genome data using Data Mining techniques. A bank containing 232,505 influenza A and B genome data was obtained from the GenBank website and pre-processed in order to eliminate incomplete data. After cleansing, genome data from influenza A virus were mined using Weka software with Apriori and RandomForest algorithms for association and classification tasks, respectively. Data mining resulted in the identification of influenza A H1N1pdm09. In addition, the classification models were able to correctly classify 74% of the samples of H1N1 (64%) and H3N2 (88%), and also to correctly differentiate the host in 77% of avian (63%) and human (87%) samples. Data Mining presents itself as an excellent tool for knowledge discovery in health sciences and Weka has high potential for application in this field. Weka was able to classify the two most prevalent subtypes of influenza A and also to differentiate between the two most common hosts, starting from a genomic sequences data of influenza virus available in public databases.
Description: Dissertação (Mestrado)-Programa de Pós-Graduação em Ciências da Saúde, Fundação Universidade Federal de Ciências da Saúde de Porto Alegre
metadata.dc.date.date-insert: 2017-11-08
Appears in Collections:PPGCS - Dissertações

Files in This Item:
File Description SizeFormat 
[DISSERTAÇÃO] Corrêa, Fernanda Côrte RealTexto integral2.83 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.