Topic Modeling of Prostate Cancer Radiology Reports

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2022-03-21

Department

Major/Subject

Computer Science

Mcode

SCI3042

Degree programme

Master’s Programme in Computer, Communication and Information Sciences

Language

en

Pages

46+2

Series

Abstract

Clinical notes in different forms have traditionally been the main method to document a patient’s care process and these notes usually contain free-form text with medical codes and vocabulary. In order to use the data more efficiently, new methods to explore and extract information from the clinical texts need to be developed. One way to explore what kind of topics or themes a collection of texts contain is to use topic models. Topic models are unsupervised machine learning methods that can discover latent semantic topics or themes from a document collection. In the first part of this thesis, the content and the structure of clinical texts was studied. It was discovered that while clinical notes contain free-form text, the content, and the format of the notes is regulated in various ways in Finland. This information was used to build a three-level hierarchy of prostate cancer patients’ clinical texts. The metadata extracted from the clinical notes proved to be valuable tool to categorize the texts and extract information. This indicated that it is possible to extract information to gain new perspective on the content of the clinical notes. In the second part of the thesis three topic models were trained using clinical texts of prostate cancer patients. Both the performance of the models and the inferred latent topics were evaluated. It was discovered that the latent structures inferred by the topic models become more fine-grained the more homogeneous the texts in the dataset are. The inference results of the contextual models showed that the models can extract information from the clinical texts, and the results could be improved with high quality and accurate pre-processing libraries and language models for Finnish clinical texts.

Potilaskertomukset ovat perinteisesti olleet pääasiallinen tapa dokumentoida potilaan hoitoprosessi. Näitä dokumentteja on valtava määrä, ja uusia tapoja poimia tiedon poimimiseksi tarvitaan, jotta niitä voitaisiin hyödyntää tehokkaasti. Vapaan tekstin automaattiseen analysointiin ja jäsentämiseen on olemassa useita eri tapoja, joista aihemallit ovat yksi. Aihemallit ovat ohjaamattoman oppisen menetelmiä, joiden avulla suuresta tekstimassasta voidaan havaita latentteja aiheita ja rakenteita. Diplomityön ensimmäisessä osassa tarkasteltiin potilaskertomusten sisältöä ja rakennetta. Tarkastelun tulos on, että vaikka potilaskertomukset sisältävät hyvinkin paljon vapaata tekstiä, kertomusten rakenne ja sisältö on Suomessa tarkkaan säädeltyä. Potilaskertomusten vapaa teksti sisältää rakenteista metatietoa, jonka perusteella tekstit oli mahdollista jaotella ja teksteistä oli mahdollista poimia tietoa. Tätä informaatiota olisi ollut hyvin vaikea koostaa ilman metatietoa ja potilaskertomusten rakennetta. Diplomityön toisessa osassa kolme aihemallia koulutettiin eturauhassyöpäpotilaiden potilaskertomusten avulla. Koulutuksen jälkeen mallien suorituskykyä ja niiden havaitsemia latentteja rakenteita arvioitiin. Arvioinnin tulos on, että mitä samanlaisempia potilaskertomukset ovat, sitä yksityiskohtaisempaa informaatiota latentit rakenteet sisältävät. Tulosten perusteella potilaskertomuksista on mahdollista poimia yksityiskohtaista tietoa, jonka laatua voidaan parantaa tekstien korkealaatuisella esikäsittelyllä käyttäen suomen kielellä esikoulutettuja malleja.

Description

Supervisor

Marttinen, Pekka

Thesis advisor

Koskinen, Miika
Ji, Shaoxiong

Keywords

topic models, clinical texts, natural language processing, electronic health records

Other note

Citation