Cardiotocograph dataset engineering and detection of an increased fetal heart rate variability pattern

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Sähkötekniikan korkeakoulu | Master's thesis
Date
2021-03-15
Department
Major/Subject
Communications Engineering
Mcode
ELEC3029
Degree programme
CCIS - Master’s Programme in Computer, Communication and Information Sciences (TS2013)
Language
en
Pages
68+14
Series
Abstract
The main purpose of cardiotocographic (CTG) fetal heart rate (FHR) registration is to identify fetuses that are at risk of neurological damage due to intrapartum hypoxia. Recently, a zigzag pattern, defined as FHR baseline amplitude changes of >25 bpm with a minimum duration of 2 minutes, has been reported as an early sign of fetal hypoxia. The aim of the thesis has been to produce an automated detector for the zigzag pattern of FHR. The data set contains CTG recordings from singleton term childbirths (N=4987) during one year at the Helsinki University Hospital. The zigzag pattern occurred in 581 (11.7%) of the recordings. The thesis introduces the CTG data set engineering workflow producing a clean data set. The data set contains 470470 minutes of FHR data; the overall duration of zigzag episodes is 3876 minutes (0.82%). The features are extracted benefiting signal processing and statistical information of FHR tracings. These features operated as input to machine learning (ML) classifiers k-Nearest Neighbor (KNN), Support Vector Machine (SVM) and Random Forest (RF). RF and SVM achieved AUC of 0.91 and f1-score of 0.14 with basic statistical features. Both RF and SVM generated equivalent precision and recall values. Furthermore, AUC values exceeding 0.98 were achievable, but the dataset imbalance led to the very low F1-score. The KNN achieved AUC 0.798 with base features. From the computational complexity, RF operated with a fraction of the processor and memory requirements when compared to the SVM. The thesis suggests that it is possible to produce an aid for clinicians with a zigzag pattern detector implemented with ML and proper feature extraction. However, to utilize the detection in the Delivery Room, the reduction of the false positives and false negatives should be achieved. In addition, extracting FHR data from the data lake requires significant validation tool development. The thesis code base introduces a number validation tools, but only few are automated.

Kardiotokografia (KTG) eli sikiön sykkeen ja kohdun supistusten elektroninen rekisteröinti on yleisin synnytyksenaikainen sikiön tarkkailun menetelmä. KTG-rekisteröinnin tärkeimpänä tavoitteena on ennakoivasti tunnistaa ne sikiöt, jotka ovat vaarassa altistua hypoksialle eli hapenpuutteelle. Hypoksia aiheuttaa sekä ohimeneviä että pysyviä muutoksia sikiön tai vastasyntyneen keskushermostossa, vakavimpina hypoksis-iskeeminen aivovaurio ja kuolema. Synnytyksen aikana KTG-rekisteröinnin tulkinta tapahtuu hoitohenkilöstön toimesta reaaliaikaisesti. KTG-rekisteröinnin luotettavuutta sikiön huonokuntoisuuden ennustajana heikentää menetelmän epätarkkuus. Lisäksi KTG-tulkinnan toistettavuus on tunnetusti heikko. Tällöin synnytyslääkärien ja kätilöiden suorittamassa KTG:n luokittelussa ja sykemuutosten tunnistamistamisessa esiintyy huomattavia eroavaisuuksia riippumatta ammattikunnasta tai työuran pituudesta. On oletettavaa, että KTG-käyrän tulkinnassa tapahtuvia virheitä voitaisiin vähentää rakentamalla tietokonepohjainen, koneoppimiseen perustuva malli ammattilaisten avuksi. Tuoreen tutkimusnäytön perusteella sikiön sykkeen korostunut vaihtelevuus on sikiön hypoksian varhainen merkki synnytyksen aikana. Kun vaihtelevuus on yli 25 lyöntiä/minuutti vähintään kahden minuutin ajan, on kyseessä zigzag-kuvio. Diplomityössä tutkimusaineistona on Helsingin yliopistollisen sairaalan 4987 täysiaikaisen synnytyksen KTG-data vuodelta 2012. Diplomityön tavoitteena on ollut luoda koneoppimista hyödyntävä malli, joka tunnistaa zigzag-kuvion KTG-rekisteröinnistä. Merkittävä osa diplomityöstä kului datan esiprosessointiin ja datan muokkaukseen. Suuri datamäärä tuotti haasteen datan käsittelyssä. KTG-tallenteet sisälsivät 1,2 miljardia havaintoriviä ja jokainen rivi sisältsi kymmenen tietokenttää. Lisäongelman muodostivat datan keruun tai tallennuksen anomaliat. Todennäköisesti syynä ovat KTG-monitorin tapa raportoida näytteitä tai datan säilytyksessä käytetyn datajärven käsittelyvirheet. Tunnistimina käytetyt koneoppimisen luokittimet perustuvat ohjatun oppimisen paradigmaan. Näille luokittimille data muokattiin kahden minuutin mittaisiksi näytteiksi, joille annettiin luokka Normaali tai ZigZag. Kahden minuutin näytteistä tuotettiin tilastollisia arvoja sekä taajusenergiainformaatiota sisältäviä ominaisuusvektoreita. Luokittimien hyvyyttä arvioitiin laskemalla f1- sekä AUC-arvot. Satunnaismetsäluokitin (Random Forest), joka rakentuu päätöspuista ja perustuu kokoelmaoppimiseen, saavutti AUC-arvon 0.91 ja f1-arvon 0.14. Tukivektoriluokitin (Support Vector Machine) saavutti saman tarkkuuden kuin satunnaismetsäluokitin. Tukivektoriluokitin vaati laskennallisesti lähes satakertaisen laskentatehon ja yli kymmenkertaisen määrän muistia verrattuna satunnaismetsäluokittimeen. K-lähimmän naapurin luokitin (K-NearestNeighbor) saavutti AUC-arvon 0.78 ja toisella optimoinnilla f1-arvon 0.23. Diplomityö on tiettävästi ensimmäinen tietokonepohjainen tutkimus, jolla on tunnistettu sikiön korostuneeseen sykevaihteluun liittyvä zigzag-kuvio KTG-datasta. Kuvion tunnistuksessa on saavutettu kohtuullinen luotettavuus. Diplomityön tuloksena syntyi datakirjasto, joka mahdollistaa tulevaisuudessa eri tunnistusmenetelmien käytön zigzag-kuvion ja muiden KTG-muutosten tunnistamiseksi. Lisäksi työssä osoitettin KTG-datan vaativan huomattavan määrän esiprosessointia ennen kuin dataa voidaan hyödyntää koneoppimisen menetelmillä. Tässä työssä esitettyjen tunnistimien käyttäminen kliinisessä työssä ei ole vielä suositeltavaa. Kuvatut menetelmät tuottavat huomattavan määrän vääriä positiivisia luokituksia eli vääriä zigzag-hälytyksiä. Väärät hälytykset voivat johtaa turhiin toimenpiteisiin, johon liittyy kohonnut äiti- ja sikiökomplikaatioiden riski.
Description
Supervisor
Jäntti, Riku
Thesis advisor
Hollmén, Jaakko
Tarvonen, Mikko
Keywords
data engineering, cardiotocography, fetal heart rate, zigzag pattern, machine learning, parturition
Other note
Citation