Clustering and prediction of electronic health record data from mental health patients in a Finnish healthcare environment
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2019-06-17
Department
Major/Subject
Complex Systems
Mcode
SCI3060
Degree programme
Master’s Programme in Life Science Technologies
Language
en
Pages
47
Series
Abstract
Electronic health records contain a wealth of information of interest to both the patient and the service provider but are historically not designed for easy computational analysis. In this study, we introduce the concept of treatment pathways as treatment sessions related to one single initial diagnosis. We explore three mixed-data clustering methods on the mental health patients from the Finnish occupational health population from one health service provider, and identify these treatment paths from electronic health record data. Based on these clusters we create two predictive models to predict treatment pathway length and duration of any possible sick leave of a patient. We demonstrate how these clustering and predictive models work on health record data and validate the results statistically and with expert evaluation. We show that different clustering methods produce very different outcomes in terms of the size and number of different diagnoses contained in a treatment pathway. The expert-evaluated error rates for these models range from 0.66% to 39.83% for the number of appointments that are incorrectly clustered. The predictive models are shown to be an adequate tool to predict the lengths of the treatment pathway and sick leave. Additionally, these methods perform well at identifying unusually large values for these measures, making them useful in identifying patients at high risk early on in the treatment pathway. Overall, the study demonstrates the feasibility of the selected methods on large-scale electronic health record data, provides results for clustering and assessing the quality of these clusters and serves as a base for predictive models based on these clusters. The results overall are promising and function as an initial study into further structuring and predicting medical data on a large scale.Potilastietojärjestelmät sisältävät paljon erilaista tietoa, jonka hyödyntäminen on sekä potilaan että terveyspalveluiden tuottajan etu. Näitä järjestelmiä on kuitenkin harvoin tuotettu data-analyysin mahdollistamiseksi. Tässä tutkimuksessa esittelemme hoitopolun käsitteen, joka sisältää kaikki hoitotoimenpiteet yhteen ensidiagnoosiin liittyen. Tutkimme kolmea erilaista klusterointimenetelmää Suomen työterveyshuollon piirissä oleville mielenterveyspotilaille yhden palveluntuottajan piirissä sekä menetelmien soveltuvuutta potilastietojärjestelmien aineistoille. Näiden pohjalta luomme kahdella menetelmällä ennustemallit, joissa mallinnetaan hoitoketjun pituutta sekä mahdollista potilaan sairaspoissaolojakson pituutta. Osoitamme, miten nämä klusterointi- ja ennustemenetelmät toimivat potilastietoaineistolla ja arvioimme tulokset tilastollisesti sekä asiantuntija-arvioin. Tutkimuksessa näytämme, että erilaiset klusterointimenetelmät tuottavat hyvin erilaisia tuloksia sekä klustereiden koon että niiden sisältämien diagnoosien toimesta. Virheluvut näille ovat asiantintija-arvion mukaan pienimmillään 0.66% ja suurimmillaan 39.83%, kun arvioitiin virheellisesti klusteroitujen käyntien osuutta koko aineistosta. Ennustemallit todettiin toimivaksi työkaluksi ennustettaessa hoitopolkujen ja potilaan sairaspoissaolojakson pituutta. Erityisen hyvin nämä mallit tunnistavat poikkeuksellisen pitkiä jaksoja tästä aineistosta, jolloin ne soveltultuvat hyvin erityisen suuressa riskissä olevien potilaiden seulontaan hoitoketjun aikaisessa vaiheessa. Kokonaisuudessaan tutkimus esittelee valittujen menetelmien soveltuvuutta suuren mittaluokan potilastietojärjestelmäaineistolle, tuloksia tiedon klusteroinnille ja menetelmät niiden arviointiin sekä tutkii ennustemallien käytettävyyttä hoitoketjujen ominaisuuksien arvioinnissa. Nämä tulokset ovat kaikkiaan lupaavia ja toimivat pohjana jatkotutkimuksille tutkittaessa terveystiedon strukturointia sekä ennustettavuutta laajemmassa mittakaavassa.Description
Supervisor
Saramäki, JariThesis advisor
Lahesmaa-Korpinen, Anna-MariaKeywords
electronic health record, mental health, machine learning, clustering, regression, treatment pathway