Data-driven approach to predict neonatal medical diagnoses
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2019-06-17
Department
Major/Subject
Complex Systems
Mcode
SCI3060
Degree programme
Master’s Programme in Life Science Technologies
Language
en
Pages
86 + 8
Series
Abstract
Preterm infants with a very low birth weight are at a great risk of dying or of developing certain life-threatening complications due to their underdevelopment. These critically ill infants are treated at neonatal intensive care units, in which their physiological condition is monitored continuously. In this thesis, machine learning is applied on the monitored parameter recordings and other patient-specific information from Children's Hospital, Helsinki University Hospital. The purpose is to use binary classifiers to predict neonatal mortality and occurrence of three morbidities: bronchopulmonary dysplasia, necrotising enterocolitis, and retinopathy of prematurity. Majority of the current studies have focused on comparing only a few classifiers. Therefore, a wider comparison of classifier algorithms is performed in this work. In addition to a common measure, the prediction performance is evaluated with two less used measures: F1 score and area under the precision-recall curve. Additionally, the impact of data preprocessing and feature selection on the prediction result is studied. The results show large differences in the performance of classifiers. Random forests, k-nearest neighbours, and logistic regression result in the highest F1 scores. The highest values of area under the precision-recall curve are achieved by random forests along with Gaussian processes. If area under the ROC curve is measured, random forests, Gaussian processes, and support vector machines perform the best. The monitored physiological parameters are time series and their sampling technique can be altered. This shows only a negligible impact on the results. However, lengthening the monitoring time of physiological parameters to 36-48 hours has a little but positive effect on the results. On the other hand, feature selection has a significant role: birth weight and gestational age are crucial for a high performance. Further, combining them with other features improves the performance. For all that, the optimal data preprocessing procedure is classifier- and complication-specific.Syntymäpainoltaan hyvin pienet keskoset ovat suuressa riskissä kuolla tai saada hengenvaarallisia komplikaatioita alikehittyneisyyden takia. Näitä vakavasti sairaita vauvoja hoidetaan vastasyntyneiden teho-osastoilla, joissa heidän fysiologista kuntoaan valvotaan jatkuvasti. Tämä tutkielma soveltaa koneoppimista valvottujen parametrien tallenteisiin ja muihin potilaskohtaisiin tietoihin, jotka on saatu HUS:n Lastenklinikalta. Tarkoituksena on käyttää binääristä luokittelua ennustamaan vastasyntyneiden kuolleisuutta ja kolmen sairauden puhkeamista. Nämä sairaudet ovat bronkopulmonaalinen dysplasia, nekrotisoiva enterokoliitti sekä keskosten retionopatia. Suurin osa nykyisestä tutkimuksesta on keskittynyt vertailemaan vain muutamia luokittelijoita. Tässä työssä vertaillaan siksi suurempaa määrää eri luokittelualgoritmeja. Yhden yleisesti käytetyn mitan lisäksi ennusteita arvioidaan myös kahdella vähemmän käytetyllä arviointimitalla: F1-arvolla ja tarkkuus-herkkyys-käyrän alapuolisella alueella. Myös datan esikäsittelyn ja piirteiden valinnan vaikutusta ennustustulokseen tutkitaan. Tulokset osoittavat suuria eroja eri luokittelijoiden välillä. Satunnaismetsillä, k-lähimmän naapurin luokittimella sekä logistisella regressiolla saadaan korkeimmat F1-arvot. Suurimmat tarkkuus-herkkyys-käyrän alapuoliset alueet saavutetaan satunnaismetsillä sekä Gaussisten prosessien luokittimilla. Jos taas ROC-käyrän alapuolinen alue mitataan, satunnaismetsät, Gaussisten prosessien luokitin ja tukivektorikoneet toimivat parhaiten. Seuratut fysiologiset parametrit ovat aikasarjoja, joten niiden näytteenottotapaa voidaan muuttaa. Tällä on vain pieni vaikutus tuloksiin. Fysiologisten parametrien seuranta-ajan pidentämisellä 36-48 tuntiin on kuitenkin pieni, mutta myönteinen vaikutus tuloksiin. Piirteiden valinnalla on puolestaan merkittävästi väliä: syntymäpaino ja gestaatioikä ovat ratkaisevia hyvien tulosten saamiseksi. Niiden yhdistäminen muiden piirteiden kanssa parantaa tuloksia. Ihanteellinen datan esikäsittely on kaikesta huolimatta luokittelija- ja komplikaatiokohtaista.Description
Supervisor
Särkkä, SimoThesis advisor
Hollmén, JaakkoBahrami Rad, Ali
Keywords
machine learning, binary classification, neonatal complications, prediction