Data-driven approach to predict neonatal medical diagnoses

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2019-06-17

Department

Major/Subject

Complex Systems

Mcode

SCI3060

Degree programme

Master’s Programme in Life Science Technologies

Language

en

Pages

86 + 8

Series

Abstract

Preterm infants with a very low birth weight are at a great risk of dying or of developing certain life-threatening complications due to their underdevelopment. These critically ill infants are treated at neonatal intensive care units, in which their physiological condition is monitored continuously. In this thesis, machine learning is applied on the monitored parameter recordings and other patient-specific information from Children's Hospital, Helsinki University Hospital. The purpose is to use binary classifiers to predict neonatal mortality and occurrence of three morbidities: bronchopulmonary dysplasia, necrotising enterocolitis, and retinopathy of prematurity. Majority of the current studies have focused on comparing only a few classifiers. Therefore, a wider comparison of classifier algorithms is performed in this work. In addition to a common measure, the prediction performance is evaluated with two less used measures: F1 score and area under the precision-recall curve. Additionally, the impact of data preprocessing and feature selection on the prediction result is studied. The results show large differences in the performance of classifiers. Random forests, k-nearest neighbours, and logistic regression result in the highest F1 scores. The highest values of area under the precision-recall curve are achieved by random forests along with Gaussian processes. If area under the ROC curve is measured, random forests, Gaussian processes, and support vector machines perform the best. The monitored physiological parameters are time series and their sampling technique can be altered. This shows only a negligible impact on the results. However, lengthening the monitoring time of physiological parameters to 36-48 hours has a little but positive effect on the results. On the other hand, feature selection has a significant role: birth weight and gestational age are crucial for a high performance. Further, combining them with other features improves the performance. For all that, the optimal data preprocessing procedure is classifier- and complication-specific.

Syntymäpainoltaan hyvin pienet keskoset ovat suuressa riskissä kuolla tai saada hengenvaarallisia komplikaatioita alikehittyneisyyden takia. Näitä vakavasti sairaita vauvoja hoidetaan vastasyntyneiden teho-osastoilla, joissa heidän fysiologista kuntoaan valvotaan jatkuvasti. Tämä tutkielma soveltaa koneoppimista valvottujen parametrien tallenteisiin ja muihin potilaskohtaisiin tietoihin, jotka on saatu HUS:n Lastenklinikalta. Tarkoituksena on käyttää binääristä luokittelua ennustamaan vastasyntyneiden kuolleisuutta ja kolmen sairauden puhkeamista. Nämä sairaudet ovat bronkopulmonaalinen dysplasia, nekrotisoiva enterokoliitti sekä keskosten retionopatia. Suurin osa nykyisestä tutkimuksesta on keskittynyt vertailemaan vain muutamia luokittelijoita. Tässä työssä vertaillaan siksi suurempaa määrää eri luokittelualgoritmeja. Yhden yleisesti käytetyn mitan lisäksi ennusteita arvioidaan myös kahdella vähemmän käytetyllä arviointimitalla: F1-arvolla ja tarkkuus-herkkyys-käyrän alapuolisella alueella. Myös datan esikäsittelyn ja piirteiden valinnan vaikutusta ennustustulokseen tutkitaan. Tulokset osoittavat suuria eroja eri luokittelijoiden välillä. Satunnaismetsillä, k-lähimmän naapurin luokittimella sekä logistisella regressiolla saadaan korkeimmat F1-arvot. Suurimmat tarkkuus-herkkyys-käyrän alapuoliset alueet saavutetaan satunnaismetsillä sekä Gaussisten prosessien luokittimilla. Jos taas ROC-käyrän alapuolinen alue mitataan, satunnaismetsät, Gaussisten prosessien luokitin ja tukivektorikoneet toimivat parhaiten. Seuratut fysiologiset parametrit ovat aikasarjoja, joten niiden näytteenottotapaa voidaan muuttaa. Tällä on vain pieni vaikutus tuloksiin. Fysiologisten parametrien seuranta-ajan pidentämisellä 36-48 tuntiin on kuitenkin pieni, mutta myönteinen vaikutus tuloksiin. Piirteiden valinnalla on puolestaan merkittävästi väliä: syntymäpaino ja gestaatioikä ovat ratkaisevia hyvien tulosten saamiseksi. Niiden yhdistäminen muiden piirteiden kanssa parantaa tuloksia. Ihanteellinen datan esikäsittely on kaikesta huolimatta luokittelija- ja komplikaatiokohtaista.

Description

Supervisor

Särkkä, Simo

Thesis advisor

Hollmén, Jaakko
Bahrami Rad, Ali

Keywords

machine learning, binary classification, neonatal complications, prediction

Other note

Citation