Clustering and prediction of electronic health record data from mental health patients in a Finnish healthcare environment

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2019-06-17

Department

Major/Subject

Complex Systems

Mcode

SCI3060

Degree programme

Master’s Programme in Life Science Technologies

Language

en

Pages

47

Series

Abstract

Electronic health records contain a wealth of information of interest to both the patient and the service provider but are historically not designed for easy computational analysis. In this study, we introduce the concept of treatment pathways as treatment sessions related to one single initial diagnosis. We explore three mixed-data clustering methods on the mental health patients from the Finnish occupational health population from one health service provider, and identify these treatment paths from electronic health record data. Based on these clusters we create two predictive models to predict treatment pathway length and duration of any possible sick leave of a patient. We demonstrate how these clustering and predictive models work on health record data and validate the results statistically and with expert evaluation. We show that different clustering methods produce very different outcomes in terms of the size and number of different diagnoses contained in a treatment pathway. The expert-evaluated error rates for these models range from 0.66% to 39.83% for the number of appointments that are incorrectly clustered. The predictive models are shown to be an adequate tool to predict the lengths of the treatment pathway and sick leave. Additionally, these methods perform well at identifying unusually large values for these measures, making them useful in identifying patients at high risk early on in the treatment pathway. Overall, the study demonstrates the feasibility of the selected methods on large-scale electronic health record data, provides results for clustering and assessing the quality of these clusters and serves as a base for predictive models based on these clusters. The results overall are promising and function as an initial study into further structuring and predicting medical data on a large scale.

Potilastietojärjestelmät sisältävät paljon erilaista tietoa, jonka hyödyntäminen on sekä potilaan että terveyspalveluiden tuottajan etu. Näitä järjestelmiä on kuitenkin harvoin tuotettu data-analyysin mahdollistamiseksi. Tässä tutkimuksessa esittelemme hoitopolun käsitteen, joka sisältää kaikki hoitotoimenpiteet yhteen ensidiagnoosiin liittyen. Tutkimme kolmea erilaista klusterointimenetelmää Suomen työterveyshuollon piirissä oleville mielenterveyspotilaille yhden palveluntuottajan piirissä sekä menetelmien soveltuvuutta potilastietojärjestelmien aineistoille. Näiden pohjalta luomme kahdella menetelmällä ennustemallit, joissa mallinnetaan hoitoketjun pituutta sekä mahdollista potilaan sairaspoissaolojakson pituutta. Osoitamme, miten nämä klusterointi- ja ennustemenetelmät toimivat potilastietoaineistolla ja arvioimme tulokset tilastollisesti sekä asiantuntija-arvioin. Tutkimuksessa näytämme, että erilaiset klusterointimenetelmät tuottavat hyvin erilaisia tuloksia sekä klustereiden koon että niiden sisältämien diagnoosien toimesta. Virheluvut näille ovat asiantintija-arvion mukaan pienimmillään 0.66% ja suurimmillaan 39.83%, kun arvioitiin virheellisesti klusteroitujen käyntien osuutta koko aineistosta. Ennustemallit todettiin toimivaksi työkaluksi ennustettaessa hoitopolkujen ja potilaan sairaspoissaolojakson pituutta. Erityisen hyvin nämä mallit tunnistavat poikkeuksellisen pitkiä jaksoja tästä aineistosta, jolloin ne soveltultuvat hyvin erityisen suuressa riskissä olevien potilaiden seulontaan hoitoketjun aikaisessa vaiheessa. Kokonaisuudessaan tutkimus esittelee valittujen menetelmien soveltuvuutta suuren mittaluokan potilastietojärjestelmäaineistolle, tuloksia tiedon klusteroinnille ja menetelmät niiden arviointiin sekä tutkii ennustemallien käytettävyyttä hoitoketjujen ominaisuuksien arvioinnissa. Nämä tulokset ovat kaikkiaan lupaavia ja toimivat pohjana jatkotutkimuksille tutkittaessa terveystiedon strukturointia sekä ennustettavuutta laajemmassa mittakaavassa.

Description

Supervisor

Saramäki, Jari

Thesis advisor

Lahesmaa-Korpinen, Anna-Maria

Keywords

electronic health record, mental health, machine learning, clustering, regression, treatment pathway

Other note

Citation