Mineração de dados como ferramenta para análise de base de dados de genoma do vírus influenza A

Corrêa, Fernanda Côrte RealMineração de dados como ferramenta para análise de base de dados de genoma do vírus influenza AMy University2017Vírus da Influenza AMineração de DadosBases de Dados FactuaisInteligência ArtificialBiologia Computacional[en] Influenza A virus[en] Data Mining[en] Databases, Factual[en] Artificial Intelligence[en] Computational BiologyMy UniversityMy University2017-11-082023-10-092017-11-082023-10-092017pt-BRDissertaçãohttps://repositorio.ufcspa.edu.br/handle/123456789/566Acesso Aberto Imediatohttp://creativecommons.org/licenses/by-nc-sa/4.0/Dissertação (Mestrado)-Programa de Pós-Graduação em Ciências da Saúde, Fundação Universidade Federal de Ciências da Saúde de Porto AlegreA mineração de dados é uma ferramenta com grande potencial de aplicabilidade na área de bioinformática, pois permite que volumes robustos de dados sejam processados de forma otimizada. O número de dados biológicos, como por exemplo dados genômicos gerados com as novas tecnologias de sequenciamento, vem crescendo de forma exponencial, sendo necessário cada vez mais o uso de tecnologias computacionais para a interpretação dos mesmos. Os genomas virais constituem uma fonte para o desenvolvimento e uso de novas ferramentas computacionais, devido à vasta quantidade de informação acessível em bases de dados online. Este trabalho teve como objetivo analisar uma base pública de dados de genoma de vírus influenza com o emprego de técnicas de Mineração de Dados. Um banco contendo 232.505 dados de genoma de influenza A e B foi obtido através do site GenBank e pré- processado a fim de eliminar dados incompletos e transformar os dados para o formato de entrada dos algoritmos selecionados. Após limpeza, os dados de genoma do vírus influenza A foram minerados com o software Weka, com o uso dos algoritmos Apriori e RandomForest para a realização de tarefas de regras de associação e de classificação, respectivamente. A mineração dos dados resultou na correta identificação do influenza A H1N1pdm09. Além disso, os modelos de classificação foram capazes de classificar o subtipo de 74% das amostras de H1N1 (64%) e H3N2 (88%), e de diferenciar o hospedeiro de 77% das amostras aviárias (63%) e humanas (87%). Conclui-se que a Mineração de Dados se apresenta como uma promissora ferramenta para a descoberta de novos conhecimentos na área da saúde, e que o software Weka possui grande potencial para a aplicação de tarefas de Mineração de Dados nessa área, com capacidade de classificar os dois subtipos mais prevalentes de influenza A e diferenciar entre os dois hospedeiros mais comuns, a partir de dados sequências genômicas do vírus influenza disponíveis em bases de dados públicas.