Predicting diagnosis classes from medical text using deep transformer-based models

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2023-08-21
Department
Major/Subject
Machine Learning, Data Science and Artificial Intelligence
Mcode
SCI3044
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
78
Series
Abstract
This thesis focuses on text classification for disability pension assessment cases, specifically predicting the primary diagnosis in a custom diagnosis class system derived from the ICD-10. The training data comprises medical summary texts written by pension insurance physicians. We employ two pre-trained Finnish language models, finBERT and finGPT3, as well as a small BERT model trained from scratch for comparison purposes. Through experimentation and evaluation, we find that the pre-trained models consistently outperform the baseline model and the scratch-trained BERT model, demonstrating the importance of language modeling pre-training. Additionally, we investigate the impact of various factors within our dataset, including the number of subsequent diagnoses of cases, the total number of cases per individual in the dataset, and the length of medical text. Our analysis reveals that an increased number of diagnoses and longer medical texts have a negative impact on accuracy, highlighting the challenges in predicting the most important diagnosis. Furthermore, an LSTM model is trained to process multiple cases of the same individual, leading to improved prediction performance at the time of the latest assessment. The findings lay the foundation for future practical applications and research in pension insurance, enabling a more efficient and precise assessment process.

Tämä diplomityö käsittelee tekstin luokittelua työkyvyttömyyseläkkeen arvioinnissa, keskittyen ennustamaan ensisijaisen diagnoosiluokan räätälöidyssä luokittelujärjestelmässä, joka perustuu ICD-10:een. Koulutusaineisto koostuu vakuutuslääkäreiden laatimista lääketieteellisistä yhteenvedoista. Työssä käytetään kahta esikoulutettua suomenkielistä kielimallia, finBERT:ä ja finGPT3:sta, sekä alusta asti koulutettua BERT-mallia. Tuloksien mukaan esikoulutetut mallit saavuttavat paremman tarkkuuden kuin vertailumalli ja alusta asti koulutettu BERT-malli. Tämä osoittaa, että kielimallien esikoulutuksesta on hyötyä. Lisäksi työ tutkii eri tekijöiden vaikutusta luokittelutarkkuuteen, mukaan lukien tapauksen eli eläkehakemuksen diagnoosien määrän, tapauksien kokonaismäärän henkilöä kohden aineistossa sekä tekstin pituuden. Analyysi paljastaa, että suuremmalla diagnoosien määrällä ja pidemmillä teksteillä on negatiivinen vaikutus tarkkuuteen, mikä korostaa haasteita tärkeimmän diagnoosin ennustamisessa. Lisäksi työssä koulutetaan LSTM-pohjainen malli, joka hyödyntää saman henkilön peräkkäisiä tapauksia, mikä parantaa ennustuskykyä viimeisimmän arvioinnin ajankohtana. Tulokset luovat perustan tuleville käytännön sovelluksille ja tutkimukselle eläkevakuutuksen alalla, mahdollistaen tehokkaamman ja tarkemman työkyvyttömyysarviointiprosessin.
Description
Supervisor
Kurimo, Mikko
Thesis advisor
Salonen, Janne
Jokela, Daniel
Keywords
transformer, deep learning, BERT, GPT, disability pension, medical text classification
Other note
Citation