Predicting work dysfunction risk from clinical notes using deep learning

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2022-10-17

Department

Major/Subject

Bioinformatics and Digital Health

Mcode

SCI3092

Degree programme

Master’s Programme in Life Science Technologies

Language

en

Pages

60 + 7

Series

Abstract

Work dysfunction has negative consequences for individuals, corporations and society. Early detection of work dysfunction can prevent severe problems and reduce negative consequences. Automatic work dysfunction identification is preferable over manual identification, because automatic methods are faster, cheaper and less error–prone. This thesis investigates methods for automatically identifying individuals with work dysfunction risk using the existing healthcare patient database at Terveystalo. The goal of this thesis is to lay grounds for a possible tool for predicting work dysfunction risk that can be used by clinicians. This tool would ideally catch people, or populations, at risk of work dysfunction at an early stage so that they could be guided to the right treatment by clinicians. This thesis mainly uses Finnish clinical notes in free form text, since clinical notes have not been utilized for automatic work dysfunction identification before. Natural language processing (NLP) methods provide possibilities to utilize free form text for downstream tasks. This thesis investigates three NLP models of different complexity level: TF–IDF, FastText and GPT2 for Finnish. Using each model, we predict the risk of three indicators of work dysfunction: a mental health diagnosis (F–diagnosis), a substantial number of sickleave days and a high risk of a job change. The best performing models achieved accuracies of 0.93 (GPT2) for the F–diagnosis task, 0.71 (FastText) for the sickleave task and 0.60 (GPT2) for the job change task. No large changes between the models were observed for any task. All models and tasks demonstrate ability to predict indicators of work dysfunction risk. The F–diagnosis task proved to be the easiest task, and a F–diagnosis risk prediction tool could be productized. A work dysfunction tool requires additional research on topics including combination of work dysfunction indicators. The largest separating factor between the three NLP models was their explainability. The more easily explainable models, TF–IDF and FastText, would be preferable in a clinical tool.

Arbetsohälsa har negativa konsekvenser för enskilda individer, företag och hela samhället. Om man upptäcker arbetsohälsa i god tid är det möjligt att förebygga allvarliga problem och minska negativa följder. Automatiska metoder för identifiering av arbetsohälsa är att föredra framom manuella metoder, eftersom automatiska metoder är snabbare, noggrannare och billigare. Detta diplomarbete undersöker metoder som kan användas för att identifiera individer med arbetsohälsorisk genom att använda den existerande patient hälso databasen på Terveystalo. Målet med detta diplomarbete är att lägga grunden för ett verktyg, för automatiks arbetsohälsorisk identifiering, som ska kunna användas av kliniker. Med ett sådant här verktyg skulle individer, och grupper, med arbetsohälsorisk kunna identifieras tidigt och därmed i ett tidigt skede bli hänvisade till korrekt vård av kliniker. Detta arbete använder sig främst av patientjournaltexter (fri text) på finska, eftersom sådana texter inte tidigare har använts för automatiks arbetsohälsorisk identifiering. Datorhantering av naturliga språk erbjuder metoder för utnyttjande av fri text för senare uppgifter. Detta diplomarbete undersöker tre sådana metoder med olika komplexitetsnivå: TF–IDF, FastText och GPT2 för finska. Varje metod används för att förutsäga risken för tre indikatorer för arbetsohälsa: en mental hälsodiagnos (F–diagnos), ett betydande antal dagar sjukledigt och en hög risk att byta jobb. De bästa fungerande metoderna uppnåde noggrannheter på 0.93 (GPT2) för F–diagnos risk, 0.71 (FastText) för sjukledighets risk och 0.60 (GPT2) för jobb bytes risk. Noggranheten metoderna emellan var väldigt lika för varje indikator. Alla metoder demostrerar för varje uppgift förmåga att förutse indikatorer för arbetsohälsa. F–diagnos uppgiften visade sig vara den lättaste, och ett verktyg för F–diagnos riskförutsägelse skulle kunna produceras. Ett verktyg för arbetsohälsoriskförutsägelse kräver ytterligare forskning kring ämnen så som kombinering av indikatorer för arbetsohälsorisk. För ett kliniskt verktyg kunde TF–IDF eller FastText metoden vara att föredra framom GPT2, eftersom GPT2 modellen inte går att förklara så bra som de andra.

Description

Supervisor

Marttinen, Pekka

Thesis advisor

Taalas, Ara

Keywords

work dysfunction risk, clinical notes, deep learning, natural language processing

Other note

Citation