Contextual extraction of phenotype expressions from free-form text
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2023-01-16
Department
Major/Subject
Complex Systems
Mcode
SCI3060
Degree programme
Master’s Programme in Life Science Technologies
Language
en
Pages
53+6
Series
Abstract
Over 300 million people worldwide suffer from rare diseases. Genetic testing plays a key role in the diagnostics of rare diseases. The process of genetic testing includes manual interpretation of the clinical test results. This interpretation is laborious and creating new tools to make the work of geneticists more efficient makes genetic testing available for a wider public, ultimately saving lives. The Human Phenotype Ontology (HPO) reports a variety of gene-phenotype connections for over 16 thousand phenotypes as they are known to literature. These associations can be used in the interpretation of genetic results. Tagging free-form clinical text with HPO terms is an essential step in the interpretation of genetic testing results. An algorithm that does this sort of tagging could be used to create an assisting tool to speed up the work of geneticists. Alternatively, such an algorithm could be used for data mining purposes to find new, yet unknown gene-phenotype connections. This could be done by tagging clinical data with known genetic test results with HPO terms and performing statistical analysis. However, such an algorithm should be able to understand if a phenotype was reported absent or on a relative of the primary test subject. In this thesis I will present a combined system of a BERT-based context classifier and a dictionary-based tagger to create an algorithm that can find HPO terms from free-form text and understand their context.Harvinaissairauksista kärsii yli 300 miljoonaa ihmistä ympäri maailman. Geenitestit ovat keskeinen osa harvinaissairauksien diagnostiikkaa. Geenitestaukseen kuuluu merkittävä määrä tulkintatyötä. Tämän tulkintatyön tehostaminen erinäisin tietoteknisin apuvälinein auttaisi useampia pääsemään geenitestauksen piiriin. Parhaimmillaan näin voidaan pelastaa henkiä. Human Phenotype Ontology, eli ontologia ihmisen fenotyypeistä on verkosta löytyvä tietokanta, jossa on listattu yli 16 tuhatta ihmisellä havaittua fenotyyppiä. Fenotyyppien lisäksi kannassa on listattu lukuisia yhteyksiä geenien ja fenotyyppien välillä. Näitä yhteyksiä voidaan käyttää geenitestien tulosten tulkitsemiseen. Fenotyyppi-ilmausten poimiminen vapaasta tekstistä algoritmien avulla nopeuttaisi geneetikkojen työtä. Tällaisen algoritmin avulla voitaisiin luoda avustavia työkaluja geneetikoille. Niitä voitaisiin myös käyttää datan louhintaan käymällä algoritmin avulla läpi vanhoja kliinisiä raportteja, joiden geenitestien tulokset tunnetaan. Näin voitaisiin löytää uusia geeni-fenotyyppiyhteyksiä. Tällaisen algoritmin pitäisi kuitenkin osata huomioida, että löydetyt fenotyypit koskevat todella koehenkilöä. Esimerkiksi koehenkilön sukulaisia koskevia löytöjä sekä poissaolevia löytöjä on teksteissä mukana. Tässä diplomityössä esitän kahden mallin yhdistelmää, jossa BERT-pohjainen asiayhteysluokittelija suodattaa koehenkilöä koskemattomat tekstit pois, ja jäljelle jäävistä teksteistä poimitaan fenotyyppi-ilmaukset talteen sanakirjavertailua käyttäen.Description
Supervisor
Saramäki, JariThesis advisor
Karinen, SirkkuKeywords
natural language processing, BERT, human phenotype ontology, HPO, NLP, phenotype