Contextual extraction of phenotype expressions from free-form text

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2023-01-16

Department

Major/Subject

Complex Systems

Mcode

SCI3060

Degree programme

Master’s Programme in Life Science Technologies

Language

en

Pages

53+6

Series

Abstract

Over 300 million people worldwide suffer from rare diseases. Genetic testing plays a key role in the diagnostics of rare diseases. The process of genetic testing includes manual interpretation of the clinical test results. This interpretation is laborious and creating new tools to make the work of geneticists more efficient makes genetic testing available for a wider public, ultimately saving lives. The Human Phenotype Ontology (HPO) reports a variety of gene-phenotype connections for over 16 thousand phenotypes as they are known to literature. These associations can be used in the interpretation of genetic results. Tagging free-form clinical text with HPO terms is an essential step in the interpretation of genetic testing results. An algorithm that does this sort of tagging could be used to create an assisting tool to speed up the work of geneticists. Alternatively, such an algorithm could be used for data mining purposes to find new, yet unknown gene-phenotype connections. This could be done by tagging clinical data with known genetic test results with HPO terms and performing statistical analysis. However, such an algorithm should be able to understand if a phenotype was reported absent or on a relative of the primary test subject. In this thesis I will present a combined system of a BERT-based context classifier and a dictionary-based tagger to create an algorithm that can find HPO terms from free-form text and understand their context.

Harvinaissairauksista kärsii yli 300 miljoonaa ihmistä ympäri maailman. Geenitestit ovat keskeinen osa harvinaissairauksien diagnostiikkaa. Geenitestaukseen kuuluu merkittävä määrä tulkintatyötä. Tämän tulkintatyön tehostaminen erinäisin tietoteknisin apuvälinein auttaisi useampia pääsemään geenitestauksen piiriin. Parhaimmillaan näin voidaan pelastaa henkiä. Human Phenotype Ontology, eli ontologia ihmisen fenotyypeistä on verkosta löytyvä tietokanta, jossa on listattu yli 16 tuhatta ihmisellä havaittua fenotyyppiä. Fenotyyppien lisäksi kannassa on listattu lukuisia yhteyksiä geenien ja fenotyyppien välillä. Näitä yhteyksiä voidaan käyttää geenitestien tulosten tulkitsemiseen. Fenotyyppi-ilmausten poimiminen vapaasta tekstistä algoritmien avulla nopeuttaisi geneetikkojen työtä. Tällaisen algoritmin avulla voitaisiin luoda avustavia työkaluja geneetikoille. Niitä voitaisiin myös käyttää datan louhintaan käymällä algoritmin avulla läpi vanhoja kliinisiä raportteja, joiden geenitestien tulokset tunnetaan. Näin voitaisiin löytää uusia geeni-fenotyyppiyhteyksiä. Tällaisen algoritmin pitäisi kuitenkin osata huomioida, että löydetyt fenotyypit koskevat todella koehenkilöä. Esimerkiksi koehenkilön sukulaisia koskevia löytöjä sekä poissaolevia löytöjä on teksteissä mukana. Tässä diplomityössä esitän kahden mallin yhdistelmää, jossa BERT-pohjainen asiayhteysluokittelija suodattaa koehenkilöä koskemattomat tekstit pois, ja jäljelle jäävistä teksteistä poimitaan fenotyyppi-ilmaukset talteen sanakirjavertailua käyttäen.

Description

Supervisor

Saramäki, Jari

Thesis advisor

Karinen, Sirkku

Keywords

natural language processing, BERT, human phenotype ontology, HPO, NLP, phenotype

Other note

Citation