Mineração de dados como ferramenta para análise de base de dados de genoma do vírus influenza A

Imagem de Miniatura
Data
2017
Título da Revista
ISSN da Revista
Título de Volume
Editor
Resumo
A mineração de dados é uma ferramenta com grande potencial de aplicabilidade na área de bioinformática, pois permite que volumes robustos de dados sejam processados de forma otimizada. O número de dados biológicos, como por exemplo dados genômicos gerados com as novas tecnologias de sequenciamento, vem crescendo de forma exponencial, sendo necessário cada vez mais o uso de tecnologias computacionais para a interpretação dos mesmos. Os genomas virais constituem uma fonte para o desenvolvimento e uso de novas ferramentas computacionais, devido à vasta quantidade de informação acessível em bases de dados online. Este trabalho teve como objetivo analisar uma base pública de dados de genoma de vírus influenza com o emprego de técnicas de Mineração de Dados. Um banco contendo 232.505 dados de genoma de influenza A e B foi obtido através do site GenBank e pré- processado a fim de eliminar dados incompletos e transformar os dados para o formato de entrada dos algoritmos selecionados. Após limpeza, os dados de genoma do vírus influenza A foram minerados com o software Weka, com o uso dos algoritmos Apriori e RandomForest para a realização de tarefas de regras de associação e de classificação, respectivamente. A mineração dos dados resultou na correta identificação do influenza A H1N1pdm09. Além disso, os modelos de classificação foram capazes de classificar o subtipo de 74% das amostras de H1N1 (64%) e H3N2 (88%), e de diferenciar o hospedeiro de 77% das amostras aviárias (63%) e humanas (87%). Conclui-se que a Mineração de Dados se apresenta como uma promissora ferramenta para a descoberta de novos conhecimentos na área da saúde, e que o software Weka possui grande potencial para a aplicação de tarefas de Mineração de Dados nessa área, com capacidade de classificar os dois subtipos mais prevalentes de influenza A e diferenciar entre os dois hospedeiros mais comuns, a partir de dados sequências genômicas do vírus influenza disponíveis em bases de dados públicas.
Descrição
Dissertação (Mestrado)-Programa de Pós-Graduação em Ciências da Saúde, Fundação Universidade Federal de Ciências da Saúde de Porto Alegre
Palavras-chave
Vírus da Influenza A, Mineração de Dados, Bases de Dados Factuais, Inteligência Artificial, Biologia Computacional, [en] Influenza A virus, [en] Data Mining, [en] Databases, Factual, [en] Artificial Intelligence, [en] Computational Biology
Citação