Topic Modeling of Prostate Cancer Radiology Reports
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2022-03-21
Department
Major/Subject
Computer Science
Mcode
SCI3042
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
46+2
Series
Abstract
Clinical notes in different forms have traditionally been the main method to document a patient’s care process and these notes usually contain free-form text with medical codes and vocabulary. In order to use the data more efficiently, new methods to explore and extract information from the clinical texts need to be developed. One way to explore what kind of topics or themes a collection of texts contain is to use topic models. Topic models are unsupervised machine learning methods that can discover latent semantic topics or themes from a document collection. In the first part of this thesis, the content and the structure of clinical texts was studied. It was discovered that while clinical notes contain free-form text, the content, and the format of the notes is regulated in various ways in Finland. This information was used to build a three-level hierarchy of prostate cancer patients’ clinical texts. The metadata extracted from the clinical notes proved to be valuable tool to categorize the texts and extract information. This indicated that it is possible to extract information to gain new perspective on the content of the clinical notes. In the second part of the thesis three topic models were trained using clinical texts of prostate cancer patients. Both the performance of the models and the inferred latent topics were evaluated. It was discovered that the latent structures inferred by the topic models become more fine-grained the more homogeneous the texts in the dataset are. The inference results of the contextual models showed that the models can extract information from the clinical texts, and the results could be improved with high quality and accurate pre-processing libraries and language models for Finnish clinical texts.Potilaskertomukset ovat perinteisesti olleet pääasiallinen tapa dokumentoida potilaan hoitoprosessi. Näitä dokumentteja on valtava määrä, ja uusia tapoja poimia tiedon poimimiseksi tarvitaan, jotta niitä voitaisiin hyödyntää tehokkaasti. Vapaan tekstin automaattiseen analysointiin ja jäsentämiseen on olemassa useita eri tapoja, joista aihemallit ovat yksi. Aihemallit ovat ohjaamattoman oppisen menetelmiä, joiden avulla suuresta tekstimassasta voidaan havaita latentteja aiheita ja rakenteita. Diplomityön ensimmäisessä osassa tarkasteltiin potilaskertomusten sisältöä ja rakennetta. Tarkastelun tulos on, että vaikka potilaskertomukset sisältävät hyvinkin paljon vapaata tekstiä, kertomusten rakenne ja sisältö on Suomessa tarkkaan säädeltyä. Potilaskertomusten vapaa teksti sisältää rakenteista metatietoa, jonka perusteella tekstit oli mahdollista jaotella ja teksteistä oli mahdollista poimia tietoa. Tätä informaatiota olisi ollut hyvin vaikea koostaa ilman metatietoa ja potilaskertomusten rakennetta. Diplomityön toisessa osassa kolme aihemallia koulutettiin eturauhassyöpäpotilaiden potilaskertomusten avulla. Koulutuksen jälkeen mallien suorituskykyä ja niiden havaitsemia latentteja rakenteita arvioitiin. Arvioinnin tulos on, että mitä samanlaisempia potilaskertomukset ovat, sitä yksityiskohtaisempaa informaatiota latentit rakenteet sisältävät. Tulosten perusteella potilaskertomuksista on mahdollista poimia yksityiskohtaista tietoa, jonka laatua voidaan parantaa tekstien korkealaatuisella esikäsittelyllä käyttäen suomen kielellä esikoulutettuja malleja.Description
Supervisor
Marttinen, PekkaThesis advisor
Koskinen, MiikaJi, Shaoxiong
Keywords
topic models, clinical texts, natural language processing, electronic health records