Mineração de dados como ferramenta para análise de base de dados de genoma do vírus influenza A

dc.contributor.advisor-coVeiga, Ana Beatriz Gorini da
dc.contributor.authorCorrêa, Fernanda Côrte Real
dc.date.accessioned2017-11-08T15:30:55Z
dc.date.accessioned2023-10-09T13:59:05Z
dc.date.available2017-11-08T15:30:55Z
dc.date.available2023-10-09T13:59:05Z
dc.date.date-insert2017-11-08
dc.date.issued2017
dc.descriptionDissertação (Mestrado)-Programa de Pós-Graduação em Ciências da Saúde, Fundação Universidade Federal de Ciências da Saúde de Porto Alegre
dc.description.abstractA mineração de dados é uma ferramenta com grande potencial de aplicabilidade na área de bioinformática, pois permite que volumes robustos de dados sejam processados de forma otimizada. O número de dados biológicos, como por exemplo dados genômicos gerados com as novas tecnologias de sequenciamento, vem crescendo de forma exponencial, sendo necessário cada vez mais o uso de tecnologias computacionais para a interpretação dos mesmos. Os genomas virais constituem uma fonte para o desenvolvimento e uso de novas ferramentas computacionais, devido à vasta quantidade de informação acessível em bases de dados online. Este trabalho teve como objetivo analisar uma base pública de dados de genoma de vírus influenza com o emprego de técnicas de Mineração de Dados. Um banco contendo 232.505 dados de genoma de influenza A e B foi obtido através do site GenBank e pré- processado a fim de eliminar dados incompletos e transformar os dados para o formato de entrada dos algoritmos selecionados. Após limpeza, os dados de genoma do vírus influenza A foram minerados com o software Weka, com o uso dos algoritmos Apriori e RandomForest para a realização de tarefas de regras de associação e de classificação, respectivamente. A mineração dos dados resultou na correta identificação do influenza A H1N1pdm09. Além disso, os modelos de classificação foram capazes de classificar o subtipo de 74% das amostras de H1N1 (64%) e H3N2 (88%), e de diferenciar o hospedeiro de 77% das amostras aviárias (63%) e humanas (87%). Conclui-se que a Mineração de Dados se apresenta como uma promissora ferramenta para a descoberta de novos conhecimentos na área da saúde, e que o software Weka possui grande potencial para a aplicação de tarefas de Mineração de Dados nessa área, com capacidade de classificar os dois subtipos mais prevalentes de influenza A e diferenciar entre os dois hospedeiros mais comuns, a partir de dados sequências genômicas do vírus influenza disponíveis em bases de dados públicas.pt_BR
dc.description.abstract-enData mining is a tool with great potential for application in the field of bioinformatics, as it allows extensive volumes of data to be processed in a short period of time. The amount of biological data, such as genomic data generated with the new sequencing technologies, is growing exponentially, and it is increasingly necessary to use computational methodologies for the interpretation of data. Viral genomes are a good source for the development and use of new computational tools due to the vast amount of information available in online databases. This study aimed to analyze a public database of influenza virus genome data using Data Mining techniques. A bank containing 232,505 influenza A and B genome data was obtained from the GenBank website and pre-processed in order to eliminate incomplete data. After cleansing, genome data from influenza A virus were mined using Weka software with Apriori and RandomForest algorithms for association and classification tasks, respectively. Data mining resulted in the identification of influenza A H1N1pdm09. In addition, the classification models were able to correctly classify 74% of the samples of H1N1 (64%) and H3N2 (88%), and also to correctly differentiate the host in 77% of avian (63%) and human (87%) samples. Data Mining presents itself as an excellent tool for knowledge discovery in health sciences and Weka has high potential for application in this field. Weka was able to classify the two most prevalent subtypes of influenza A and also to differentiate between the two most common hosts, starting from a genomic sequences data of influenza virus available in public databases.pt_BR
dc.identifier.urihttps://repositorio.ufcspa.edu.br/handle/123456789/566
dc.language.isopt_BRpt_BR
dc.relation.requiresAdobe Readerpt_BR
dc.rightsAcesso Aberto Imediato*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/4.0/*
dc.subjectVírus da Influenza Apt_BR
dc.subjectMineração de Dadospt_BR
dc.subjectBases de Dados Factuaispt_BR
dc.subjectInteligência Artificialpt_BR
dc.subjectBiologia Computacionalpt_BR
dc.subject[en] Influenza A virusen
dc.subject[en] Data Miningen
dc.subject[en] Databases, Factualen
dc.subject[en] Artificial Intelligenceen
dc.subject[en] Computational Biologyen
dc.titleMineração de dados como ferramenta para análise de base de dados de genoma do vírus influenza Apt_BR
dc.typeDissertaçãopt_BR
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
[DISSERTAÇÃO] Corrêa, Fernanda Côrte Real
Tamanho:
2.77 MB
Formato:
Unknown data format
Descrição:
Texto completo
Licença do Pacote
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Plain Text
Descrição: