Data mining and building algorithms for disease severity prediction in multiple sclerosis

No Thumbnail Available

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis

Date

2024-09-29

Department

Major/Subject

Human Neuroscience and Technology

Mcode

Degree programme

Master's Programme in Life Science Technologies

Language

en

Pages

57

Series

Abstract

Multiple sclerosis (MS) is a neuroinflammatory and demyelinating disease targeting the central nervous system (CNS). The disease affects millions of people worldwide. The symptoms of MS are heterogeneous and often caused by the demyelinating lesions in the CNS. Thus, understanding factors, which can predict or cause disease progression and worsening of MS symptoms is a critical and active area of research. This thesis aimed to bridge and aggregate data from Finnish multiple sclerosis register and Helsinki University hospital (HUS) patient data system to create an aggregate dataset which can then be used as a basis for further analysis. Furthermore, a machine learning model was developed to enrich the aggregate dataset with information about the lesions, based on classification from radiologists' statements. The model aims to classify, whether a statement contains remarks of new lesions compared to previous statements and thus acts as tool for automatic lesion detection in order to alleviate manual labour tasks. The machine learning model was trained on 1000 manually labeled radiologists' statements and it achieved a total classification accuracy of 89\%, indicating that machine learning models have significant potential as assistive tools for reducing manual labour. However, more work is required for developing more accurate and comprehensive models and for integrating them to existing data processing systems. From the enriched aggregate dataset, generalized linear models (GLM) were built to predict how disease relapses before diagnosis, lesions before diagnosis, expanded disability status scale (EDSS) progression, and demographic factors such as sex and age at the time of diagnosis predicted accrued relapses after two, five, and ten years. The colinearity of the independent variables were validated using variance inflation factor (VIF). Significant predictive power was observed for male sex and age at the time of diagnosis, showing a negative correlation with the number of relapses accrued during the first two years of the follow-up time. Furthermore, a higher number of relapses before diagnosis, as well as a higher number of predicted lesions indicated a lower number of relapses after diagnosis. The aggregation of the data limits the granularity of the data, and thus hides any temporal factors the data would contain. Furthermore, while the usage of GLM can predict which variablesinfluence or predict the relapses after diagnosis, the current models cannot give rise to causal mechanisms on how the variables affect the disability progression.

Multippeliskleroosi (MS) on neuroinflammaatiota ja demyelinaatiota aiheuttava keskushermoston sairaus. MS-tautia sairastaa maailmanlaajuisesti yli sata miljoonaa ihmistä. MS-taudin oireet ovat monimuotoiset aiheuttaen sekä kognitiivisia että fysiologisia oireita. MS-taudin etenemisen ja taudin oireiden ennustaminen on aktiivinen tutkimuskohde. Tämän diplomityön tarkoituksena on yhdistää Suomen MS rekisterissä oleva aineisto Helsingin ja Uudenmaan sairaanhoitopiiristä saatuun aineistoon aggregoidun datajoukon muodostamiseksi. Datajoukon tarkoituksena on toimia perustana myöhemmälle tutkimukselle. Datajoukon rikastamiseksi diplomityössä rakennettiin tekstinlouhinta malli, jonka avulla radiologien lausuntoja voidaan luokitella sen perusteella, onko lausunnoissa viitteitä uusista leesioista. Koneoppimistyökalu rakennettiin tuhannesta käsin luokitellusta radiologin lausunnosta, käyttäen tukivektorikoneperusteista koneoppimismallia. Malli saavutti 89\% tarkkuuden uusien leesiolöydösten luokittelussa ja on ensimmäinen askel suomenkielisten lausuntojen automaattiseen luokitteluun. Lisää työtä kuitenkin vaaditaan kokonaisvaltaisten koneoppimismallien rakentamiseksi sekä niiden yhdistämiseksi potilastietojärjestelmiin. Yleistettyä lineaarimallia käytettiin kertyneen relapsimäärän mallintamiseksi datajoukosta lasketuista arvoista. Relapsimäärä ennen diagnoosia, ennustettujen leesioiden määrä ennen diagnoosia, toimintakyvyn arviointiasteikko EDSS:n tulosten kehittyminen, ikä diagnoosihetkellä sekä sukupuoli toimivat muuttujina yleistetyn lineaarimallien ennusteissa. Varianssin inflaatiokerrointa käytettin lineaarimallien muuttujien validoimisessa. Sukupuoli, ikä diagnoosihetkellä, relapsit ennen diagnoosia ja ennustetut leesiot ennen diagnoosia ennustivat pienempää relapsimäärää diagnoosin jälkeen, etenkin kahden ensimmäisen vuoden aikana diagnoosista. Datan aggregaatio kuitenkin tuo rajoitteita tutkimukseen. Relapsien, lääkintätietojen, sekä EDSS-pisteiden muutosta ajassa käsiteltiin rajoittuneesti. SLisäksi yleisten lineaarimallien tulokset kuvaavat korrelaatiosuhteita sekä ennustavuutta, mutta ne eivät kerro muuttujien ja kertyneiden relapsien syy-seuraus -suhteista.

Description

Supervisor

Renvall, Hanna

Thesis advisor

Laakso, Sini

Keywords

multippeliskleroosi, MS-tauti, datan louhinta, yleistetty lineaarinen malli, taudin vakavuuden estimointi, tukivektorikone

Other note

Citation