Use of electronic health records and machine learning for sleep apnea diagnosis and treatment cost prediction

dc.contributorAalto Universityen
dc.contributorAalto-yliopistofi
dc.contributor.advisorMalo, Pekka
dc.contributor.authorLassila, Mikko
dc.contributor.departmentTieto- ja palvelujohtamisen laitosfi
dc.contributor.schoolKauppakorkeakoulufi
dc.contributor.schoolSchool of Businessen
dc.date.accessioned2021-11-21T17:02:33Z
dc.date.available2021-11-21T17:02:33Z
dc.date.issued2021
dc.description.abstractSleep apnea has recently gained wide public attention in Finland, partly due to the sudden death of a Finnish celebrity (Olli Lindholm) in 2019. However, the attention is justified, considering the status of sleep apnea as a new national disease in Finland. The health care is under great pressure due to the increased number of doctor’s referrals. Ability to predict the diagnosis and treatment costs could help the health care to make better decisions. At the same time, electronic health records (EHR) and advanced analytics have enabled new opportunities for health care. This is attractive due to potential for quality improvements (e.g., help diagnosis) and cost savings. In this thesis, we trained and validated machine learning models to predict a patient’s direct diagnosis and treatment costs from existing EHR data. In practice, we used a dataset collected from sleep apnea patients in specialized health care in a Finnish hospital district. The work consisted of extraction of the features and treatment information from the EHR database, restructuring and cleaning the data, combining with the unit cost data and training, validating and evaluation the machine learning models. As a target variable, we used net present value (NPV) of the direct costs. As feature values, we used especially initial values of some key information available from the patients such as age, body mass index and apnea-hypopnea index (AHI). The tested regression methods included a shrinkage method (Lasso) and tree-based ensemble method (Random Forest) as well as three gradient boosting based state-of-the-art methods (CatBoost, XGBoost and LightGBM). With the latter ones, the model accuracy (in cross-validation and testing) was the highest although still below moderate. Despite some lacks in the data (only specialized health care, no operation codes, inconsistency in time), the study showed that prediction of the treatment costs of OSA was possible with such an approach. Especially, after implementing suggested improvements, such models could have practical use for health care decision makers.en
dc.description.abstractUniapnea on saanut viime aikoina runsaasti huomiota, osittain liittyen julkisuudenhenkilö Olli Lindholmin äkilliseen kuolemaan vuonna 2019. Toisaalta uniapnean saama huomio on perusteltua, koska sitä pidetään uutena Suomen kansantautina. Kasvaneiden lähetemäärän vuoksi terveydenhuolto on kasvavan paineen alla. Diagnoosi- ja hoitokustannusten ennustaminen voisi auttaa terveydenhuoltoa tekemään parempia päätöksiä. Sähköiset potilastiedot ja edistynyt analytiikka ovat samalla tuoneet uusia mahdollisuuksia terveydenhuoltoon. Tämä on houkuttelevaa, koska näihin liittyy mahdollisuuksia laadun parantamiseen (esimerkiksi apu diagnooseissa) ja kustannusten pienentämiseen. Tässä työssä kehitimme ja validoimme koneoppimismalleja, jotka ennustavat potilaan suoria diagnoosi- ja hoitokustannuksia olemassa olevasta sähköisestä potilasdatasta. Käytimme työssä suomalaisessa sairaanhoitopiirissä uniapneapotilaista erikoissairaanhoidossa kerättyä potilasdataa. Työ koostui selittävien muuttujien ja hoitoinformaation keräämisestä potilastietokannasta, datan järjestelystä ja puhdistuksesta, yhdistämisestä yksikkökustannusten kanssa ja koneoppimismallien rakentamisesta, validoinnista ja arvioinnista. Ennustettavana muuttujana käytimme suorien kustannusten nettonykyarvoa (NPV). Ennustavien muuttujien arvoina käytimme erityisesti lähtöarvoja tietyistä, potilaista saatavissa olevista avaintiedoista kuten ikä, painoindeksi ja apnea-hypopneaindeksi. Testatut regressiomenetelmät sisälsivät esimerkiksi Lasson, puupohjaisen menetelmän (satunnaismetsä) ja kolme uudempaa tekniikkaa edustavaa gradient boosting -menetelmää (CatBoost, XGBoost ja LightGBM). Jälkimmäisillä saavutettiin paras mallin tarkkuus ristiinvalidoinnissa ja testauksessa, vaikkakin tarkkuus jäi kohtuullisenkin alapuolelle. Huolimatta datassa olevista puutteista (vain erikoissairaanhoito, ei operaatiokoodeja, epäjohdonmukaisuutta ajan suhteen), tutkimus osoitti, että obstruktiivisen uniapnean hoitokustannusten ennustaminen on mahdollista tämänkaltaisella asetelmalla. Erityisesti, jos käyttöön otettaisiin ehdotetut muutokset, voisi tällaisella mallilla olla käyttöä terveydenhuollon päätöksentekijöillä.
dc.format.extent79+7
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/111153
dc.identifier.urnURN:NBN:fi:aalto-2021112110315
dc.language.isoenen
dc.locationP1 Ifi
dc.programmeInformation and Service Management (ISM)en
dc.subject.keywordsleep apneaen
dc.subject.keywordelectronic health recordsen
dc.subject.keywordtreatment cost predictionen
dc.subject.keywordmachine learningen
dc.titleUse of electronic health records and machine learning for sleep apnea diagnosis and treatment cost predictionen
dc.typeG2 Pro gradu, diplomityöfi
dc.type.ontasotMaster's thesisen
dc.type.ontasotMaisterin opinnäytefi
local.aalto.electroniconlyyes
local.aalto.openaccessyes

Files

Original bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
master_Lassila_Mikko_2021.pdf
Size:
16.01 MB
Format:
Adobe Portable Document Format