Aprendizado de máquina supervisionado para classificação automática de prontuários médicos da Cardiologia

Silva, Gabriel Constantin da

Aprendizado de máquina supervisionado para classificação automática de prontuários médicos da Cardiologia

dc.contributor.advisor	Cazella, Silvio César
dc.contributor.advisor-co	Lucchese, Antônio Fernando
dc.contributor.author	Silva, Gabriel Constantin da
dc.contributor.department	Programa de Pós-Graduação em Tecnologias da Informação e Gestão em Saúde
dc.date.accessioned	2024-08-26T17:36:15Z
dc.date.available	2024-08-26T17:36:15Z
dc.date.date-insert	2024-08-26
dc.date.issued	2024-07-10
dc.description	Dissertação (Mestrado) -Programa de Pós-Graduação em Tecnologias da Informação e Gestão em Saúde, Fundação Universidade Federal de Ciências da Saúde de Porto Alegre.
dc.description.abstract	Introdução: A gestão dos documentos eletrônicos gerados no atendimento em saúde, como por exemplo, os Prontuários Médicos Eletrônicos (PME), é um desafio devido ao significativo volume de informações relacionadas, como doenças e condições clínicas. Nesse contexto, a classificação automática de textos de PME torna-se viável para processar eficientemente a crescente quantidade desses documentos eletrônicos sem necessitar de intervenção humana. Objetivo: Esta dissertação propõe desenvolver modelos de aprendizado de máquina supervisionado para a classificação automática de textos de prontuários eletrônicos de pacientes atendidos em um hospital de cardiologia. Método: A pesquisa seguiu as seguintes etapas: 1) Coletar amostras de PME do mundo real; 2) Gerar dados sintéticos de PME com uso Inteligência Artificial Generativa 3) Pré-processar as amostras de textos; 4) Treinar os modelos preditivos utilizando os textos reais e sintéticos pré-processados; 5) Criar amostras sintéticas. 6) Avaliar o desempenho dos modelos com base nas métricas de acurácia, precisão, abrangência e F1–Score; 7) Verificar o modelo com melhor desempenho para classificar os PME. Resultados: O modelo obtido através do uso do algoritmo de Regressão Logística e treinado com amostras do mundo real obteve maior valor de acurácia, enquanto o gerado com Support Vector Machine (SVM) obteve maior valor de precisão; Após uso de amostras sintéticas de prontuários criadas com uso de ChatGPT para treinamento, o modelo gerado com uso em Long Short-Term Memory (LSTM) obteve valor de acurácia de 0,88, valor de precisão de 0,97, valor de abrangência de 0,68 e valor de Escore-F1 de 0,80. Conclusões: Em termos de desempenho para classificação automática de PME, o LSTM se sobressaiu sem uso de amostras sintéticas, enquanto o SVM apresentou melhor resultado com elas. As técnicas de aprendizado de máquina supervisionado possibilitam a criação de modelos robustos a partir de conjuntos de textos significativos em volume, podendo após uma validação com médicos cardiologistas serem utilizados como apoio no processo de tomada de decisão.
dc.description.abstract-en	Introduction: The management of electronic documents generated in healthcare, such as Electronic Medical Records (PME), is a challenge due to the significant volume of related information, such as diseases and clinical conditions. In this context, the automatic classification of SME texts becomes viable to efficiently process the growing number of these electronic documents without requiring human intervention. Objective: This dissertation proposes to develop supervised machine learning models for the automatic classification of texts from electronic medical records of patients treated in a cardiology hospital. Method: The research followed the following steps: 1) Collect samples from real-world SMEs; 2) Generate synthetic SME data using Generative Artificial Intelligence 3) Pre-process text samples; 4) Train predictive models using pre-processed real and synthetic texts; 5) Create synthetic samples. 6) Evaluate the performance of the models based on accuracy, precision, coverage and F1–Score metrics; 7) Check the model with the best performance to classify SMEs. Results: The model obtained using the Logistic Regression algorithm and trained with real-world samples obtained a higher accuracy value, while the one generated with Support Vector Machine (SVM) obtained a higher precision value; After using synthetic records samples created using ChatGPT for training, the model generated using Long Short-Term Memory (LSTM) obtained an accuracy value of 0.88, a precision value of 0.97, a coverage value of 0.68 and F-Score value of 0.80. Conclusions: In terms of performance for automatic PME classification, LSTM stood out without using synthetic samples, while SVM showed better results with them. Supervised machine learning techniques enable the creation of robust models from sets of significant texts in volume, which can be used after validation with cardiologists to support the decision-making process.
dc.identifier.uri	https://repositorio.ufcspa.edu.br/handle/123456789/2930
dc.language.iso	pt_BR
dc.relation.requires	TEXTO - Adobe Reader
dc.rights	Acesso Aberto Imediato	pt_BR
dc.rights	Attribution-NonCommercial-ShareAlike 3.0 Brazil	en
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/3.0/br/
dc.subject	Processamento de Linguagem Natural	pt_BR
dc.subject	Aprendizado de Máquina Supervisionado	pt_BR
dc.subject	Registros Eletrônicos de Saúde	pt_BR
dc.subject	[en] Natural Language Processing	en
dc.subject	[en] Supervised Machine Learning	en
dc.subject	[en] Electronic Health Records	en
dc.title	Aprendizado de máquina supervisionado para classificação automática de prontuários médicos da Cardiologia
dc.type	Dissertação

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: [DISSERTAÇÃO] Silva, Gabriel Constantin da (C).pdf
Tamanho:: 3.16 MB
Formato:: Adobe Portable Document Format

Baixar

Coleções

PPGTIGSAU - Dissertações