Mineração de dados como ferramenta para análise de base de dados de genoma do vírus influenza A

Corrêa, Fernanda Côrte Real

Mineração de dados como ferramenta para análise de base de dados de genoma do vírus influenza A

dc.contributor.advisor-co	Veiga, Ana Beatriz Gorini da
dc.contributor.author	Corrêa, Fernanda Côrte Real
dc.date.accessioned	2017-11-08T15:30:55Z
dc.date.accessioned	2023-10-09T13:59:05Z
dc.date.available	2017-11-08T15:30:55Z
dc.date.available	2023-10-09T13:59:05Z
dc.date.date-insert	2017-11-08
dc.date.issued	2017
dc.description	Dissertação (Mestrado)-Programa de Pós-Graduação em Ciências da Saúde, Fundação Universidade Federal de Ciências da Saúde de Porto Alegre
dc.description.abstract	A mineração de dados é uma ferramenta com grande potencial de aplicabilidade na área de bioinformática, pois permite que volumes robustos de dados sejam processados de forma otimizada. O número de dados biológicos, como por exemplo dados genômicos gerados com as novas tecnologias de sequenciamento, vem crescendo de forma exponencial, sendo necessário cada vez mais o uso de tecnologias computacionais para a interpretação dos mesmos. Os genomas virais constituem uma fonte para o desenvolvimento e uso de novas ferramentas computacionais, devido à vasta quantidade de informação acessível em bases de dados online. Este trabalho teve como objetivo analisar uma base pública de dados de genoma de vírus influenza com o emprego de técnicas de Mineração de Dados. Um banco contendo 232.505 dados de genoma de influenza A e B foi obtido através do site GenBank e pré- processado a fim de eliminar dados incompletos e transformar os dados para o formato de entrada dos algoritmos selecionados. Após limpeza, os dados de genoma do vírus influenza A foram minerados com o software Weka, com o uso dos algoritmos Apriori e RandomForest para a realização de tarefas de regras de associação e de classificação, respectivamente. A mineração dos dados resultou na correta identificação do influenza A H1N1pdm09. Além disso, os modelos de classificação foram capazes de classificar o subtipo de 74% das amostras de H1N1 (64%) e H3N2 (88%), e de diferenciar o hospedeiro de 77% das amostras aviárias (63%) e humanas (87%). Conclui-se que a Mineração de Dados se apresenta como uma promissora ferramenta para a descoberta de novos conhecimentos na área da saúde, e que o software Weka possui grande potencial para a aplicação de tarefas de Mineração de Dados nessa área, com capacidade de classificar os dois subtipos mais prevalentes de influenza A e diferenciar entre os dois hospedeiros mais comuns, a partir de dados sequências genômicas do vírus influenza disponíveis em bases de dados públicas.	pt_BR
dc.description.abstract-en	Data mining is a tool with great potential for application in the field of bioinformatics, as it allows extensive volumes of data to be processed in a short period of time. The amount of biological data, such as genomic data generated with the new sequencing technologies, is growing exponentially, and it is increasingly necessary to use computational methodologies for the interpretation of data. Viral genomes are a good source for the development and use of new computational tools due to the vast amount of information available in online databases. This study aimed to analyze a public database of influenza virus genome data using Data Mining techniques. A bank containing 232,505 influenza A and B genome data was obtained from the GenBank website and pre-processed in order to eliminate incomplete data. After cleansing, genome data from influenza A virus were mined using Weka software with Apriori and RandomForest algorithms for association and classification tasks, respectively. Data mining resulted in the identification of influenza A H1N1pdm09. In addition, the classification models were able to correctly classify 74% of the samples of H1N1 (64%) and H3N2 (88%), and also to correctly differentiate the host in 77% of avian (63%) and human (87%) samples. Data Mining presents itself as an excellent tool for knowledge discovery in health sciences and Weka has high potential for application in this field. Weka was able to classify the two most prevalent subtypes of influenza A and also to differentiate between the two most common hosts, starting from a genomic sequences data of influenza virus available in public databases.	pt_BR
dc.identifier.uri	https://repositorio.ufcspa.edu.br/handle/123456789/566
dc.language.iso	pt_BR	pt_BR
dc.relation.requires	Adobe Reader	pt_BR
dc.rights	Acesso Aberto Imediato	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/4.0/	*
dc.subject	Vírus da Influenza A	pt_BR
dc.subject	Mineração de Dados	pt_BR
dc.subject	Bases de Dados Factuais	pt_BR
dc.subject	Inteligência Artificial	pt_BR
dc.subject	Biologia Computacional	pt_BR
dc.subject	[en] Influenza A virus	en
dc.subject	[en] Data Mining	en
dc.subject	[en] Databases, Factual	en
dc.subject	[en] Artificial Intelligence	en
dc.subject	[en] Computational Biology	en
dc.title	Mineração de dados como ferramenta para análise de base de dados de genoma do vírus influenza A	pt_BR
dc.type	Dissertação	pt_BR

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: [DISSERTAÇÃO] Corrêa, Fernanda Côrte Real (C).pdf
Tamanho:: 3.24 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.71 KB
Formato:: Plain Text
Descrição:

Baixar

Coleções

PPGCS - Dissertações