Aprendizado de máquina supervisionado para classificação automática de prontuários médicos da Cardiologia
dc.contributor.advisor | Cazella, Silvio César | |
dc.contributor.advisor-co | Lucchese, Antônio Fernando | |
dc.contributor.author | Silva, Gabriel Constantin da | |
dc.contributor.department | Programa de Pós-Graduação em Tecnologias da Informação e Gestão em Saúde | |
dc.date.accessioned | 2024-08-26T17:36:15Z | |
dc.date.available | 2024-08-26T17:36:15Z | |
dc.date.date-insert | 2024-08-26 | |
dc.date.issued | 2024-07-10 | |
dc.description | Dissertação (Mestrado) -Programa de Pós-Graduação em Tecnologias da Informação e Gestão em Saúde, Fundação Universidade Federal de Ciências da Saúde de Porto Alegre. | |
dc.description.abstract | Introdução: A gestão dos documentos eletrônicos gerados no atendimento em saúde, como por exemplo, os Prontuários Médicos Eletrônicos (PME), é um desafio devido ao significativo volume de informações relacionadas, como doenças e condições clínicas. Nesse contexto, a classificação automática de textos de PME torna-se viável para processar eficientemente a crescente quantidade desses documentos eletrônicos sem necessitar de intervenção humana. Objetivo: Esta dissertação propõe desenvolver modelos de aprendizado de máquina supervisionado para a classificação automática de textos de prontuários eletrônicos de pacientes atendidos em um hospital de cardiologia. Método: A pesquisa seguiu as seguintes etapas: 1) Coletar amostras de PME do mundo real; 2) Gerar dados sintéticos de PME com uso Inteligência Artificial Generativa 3) Pré-processar as amostras de textos; 4) Treinar os modelos preditivos utilizando os textos reais e sintéticos pré-processados; 5) Criar amostras sintéticas. 6) Avaliar o desempenho dos modelos com base nas métricas de acurácia, precisão, abrangência e F1–Score; 7) Verificar o modelo com melhor desempenho para classificar os PME. Resultados: O modelo obtido através do uso do algoritmo de Regressão Logística e treinado com amostras do mundo real obteve maior valor de acurácia, enquanto o gerado com Support Vector Machine (SVM) obteve maior valor de precisão; Após uso de amostras sintéticas de prontuários criadas com uso de ChatGPT para treinamento, o modelo gerado com uso em Long Short-Term Memory (LSTM) obteve valor de acurácia de 0,88, valor de precisão de 0,97, valor de abrangência de 0,68 e valor de Escore-F1 de 0,80. Conclusões: Em termos de desempenho para classificação automática de PME, o LSTM se sobressaiu sem uso de amostras sintéticas, enquanto o SVM apresentou melhor resultado com elas. As técnicas de aprendizado de máquina supervisionado possibilitam a criação de modelos robustos a partir de conjuntos de textos significativos em volume, podendo após uma validação com médicos cardiologistas serem utilizados como apoio no processo de tomada de decisão. | |
dc.description.abstract-en | Introduction: The management of electronic documents generated in healthcare, such as Electronic Medical Records (PME), is a challenge due to the significant volume of related information, such as diseases and clinical conditions. In this context, the automatic classification of SME texts becomes viable to efficiently process the growing number of these electronic documents without requiring human intervention. Objective: This dissertation proposes to develop supervised machine learning models for the automatic classification of texts from electronic medical records of patients treated in a cardiology hospital. Method: The research followed the following steps: 1) Collect samples from real-world SMEs; 2) Generate synthetic SME data using Generative Artificial Intelligence 3) Pre-process text samples; 4) Train predictive models using pre-processed real and synthetic texts; 5) Create synthetic samples. 6) Evaluate the performance of the models based on accuracy, precision, coverage and F1–Score metrics; 7) Check the model with the best performance to classify SMEs. Results: The model obtained using the Logistic Regression algorithm and trained with real-world samples obtained a higher accuracy value, while the one generated with Support Vector Machine (SVM) obtained a higher precision value; After using synthetic records samples created using ChatGPT for training, the model generated using Long Short-Term Memory (LSTM) obtained an accuracy value of 0.88, a precision value of 0.97, a coverage value of 0.68 and F-Score value of 0.80. Conclusions: In terms of performance for automatic PME classification, LSTM stood out without using synthetic samples, while SVM showed better results with them. Supervised machine learning techniques enable the creation of robust models from sets of significant texts in volume, which can be used after validation with cardiologists to support the decision-making process. | |
dc.identifier.uri | https://repositorio.ufcspa.edu.br/handle/123456789/2930 | |
dc.language.iso | pt_BR | |
dc.relation.requires | TEXTO - Adobe Reader | |
dc.rights | Acesso Aberto Imediato | pt_BR |
dc.rights | Attribution-NonCommercial-ShareAlike 3.0 Brazil | en |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-sa/3.0/br/ | |
dc.subject | Processamento de Linguagem Natural | pt_BR |
dc.subject | Aprendizado de Máquina Supervisionado | pt_BR |
dc.subject | Registros Eletrônicos de Saúde | pt_BR |
dc.subject | [en] Natural Language Processing | en |
dc.subject | [en] Supervised Machine Learning | en |
dc.subject | [en] Electronic Health Records | en |
dc.title | Aprendizado de máquina supervisionado para classificação automática de prontuários médicos da Cardiologia | |
dc.type | Dissertação |
Arquivos
Pacote Original
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- [DISSERTAÇÃO] Silva, Gabriel Constantin da (C).pdf
- Tamanho:
- 3.16 MB
- Formato:
- Adobe Portable Document Format