Predicting work dysfunction risk from clinical notes using deep learning

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2022-10-17
Department
Major/Subject
Bioinformatics and digital health
Mcode
SCI3092
Degree programme
Master’s Programme in Life Science Technologies
Language
en
Pages
60 + 7
Series
Abstract
Work dysfunction has negative consequences for individuals, corporations and society. Early detection of work dysfunction can prevent severe problems and reduce negative consequences. Automatic work dysfunction identification is preferable over manual identification, because automatic methods are faster, cheaper and less error–prone. This thesis investigates methods for automatically identifying individuals with work dysfunction risk using the existing healthcare patient database at Terveystalo. The goal of this thesis is to lay grounds for a possible tool for predicting work dysfunction risk that can be used by clinicians. This tool would ideally catch people, or populations, at risk of work dysfunction at an early stage so that they could be guided to the right treatment by clinicians. This thesis mainly uses Finnish clinical notes in free form text, since clinical notes have not been utilized for automatic work dysfunction identification before. Natural language processing (NLP) methods provide possibilities to utilize free form text for downstream tasks. This thesis investigates three NLP models of different complexity level: TF–IDF, FastText and GPT2 for Finnish. Using each model, we predict the risk of three indicators of work dysfunction: a mental health diagnosis (F–diagnosis), a substantial number of sickleave days and a high risk of a job change. The best performing models achieved accuracies of 0.93 (GPT2) for the F–diagnosis task, 0.71 (FastText) for the sickleave task and 0.60 (GPT2) for the job change task. No large changes between the models were observed for any task. All models and tasks demonstrate ability to predict indicators of work dysfunction risk. The F–diagnosis task proved to be the easiest task, and a F–diagnosis risk prediction tool could be productized. A work dysfunction tool requires additional research on topics including combination of work dysfunction indicators. The largest separating factor between the three NLP models was their explainability. The more easily explainable models, TF–IDF and FastText, would be preferable in a clinical tool.

Arbetsohälsa har negativa konsekvenser för enskilda individer, företag och hela samhället. Om man upptäcker arbetsohälsa i god tid är det möjligt att förebygga allvarliga problem och minska negativa följder. Automatiska metoder för identifiering av arbetsohälsa är att föredra framom manuella metoder, eftersom automatiska metoder är snabbare, noggrannare och billigare. Detta diplomarbete undersöker metoder som kan användas för att identifiera individer med arbetsohälsorisk genom att använda den existerande patient hälso databasen på Terveystalo. Målet med detta diplomarbete är att lägga grunden för ett verktyg, för automatiks arbetsohälsorisk identifiering, som ska kunna användas av kliniker. Med ett sådant här verktyg skulle individer, och grupper, med arbetsohälsorisk kunna identifieras tidigt och därmed i ett tidigt skede bli hänvisade till korrekt vård av kliniker. Detta arbete använder sig främst av patientjournaltexter (fri text) på finska, eftersom sådana texter inte tidigare har använts för automatiks arbetsohälsorisk identifiering. Datorhantering av naturliga språk erbjuder metoder för utnyttjande av fri text för senare uppgifter. Detta diplomarbete undersöker tre sådana metoder med olika komplexitetsnivå: TF–IDF, FastText och GPT2 för finska. Varje metod används för att förutsäga risken för tre indikatorer för arbetsohälsa: en mental hälsodiagnos (F–diagnos), ett betydande antal dagar sjukledigt och en hög risk att byta jobb. De bästa fungerande metoderna uppnåde noggrannheter på 0.93 (GPT2) för F–diagnos risk, 0.71 (FastText) för sjukledighets risk och 0.60 (GPT2) för jobb bytes risk. Noggranheten metoderna emellan var väldigt lika för varje indikator. Alla metoder demostrerar för varje uppgift förmåga att förutse indikatorer för arbetsohälsa. F–diagnos uppgiften visade sig vara den lättaste, och ett verktyg för F–diagnos riskförutsägelse skulle kunna produceras. Ett verktyg för arbetsohälsoriskförutsägelse kräver ytterligare forskning kring ämnen så som kombinering av indikatorer för arbetsohälsorisk. För ett kliniskt verktyg kunde TF–IDF eller FastText metoden vara att föredra framom GPT2, eftersom GPT2 modellen inte går att förklara så bra som de andra.
Description
Supervisor
Marttinen, Pekka
Thesis advisor
Taalas, Ara
Keywords
work dysfunction risk, clinical notes, deep learning, natural language processing
Other note
Citation