Comparing unique molecular identifier (UMI)-based and non-UMI-based variant calling in detecting clonal hematopoiesis from next-generation sequencing data

No Thumbnail Available

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2022-12-12

Department

Major/Subject

Machine Learning, Data Science and Artificial Intelligence

Mcode

SCI3044

Degree programme

Master’s Programme in Computer, Communication and Information Sciences

Language

en

Pages

75 + 6

Series

Abstract

Somatic mutations accumulate in all cells throughout a lifetime, stochastically leading to a competitive growth advantage and promoting the expansion of the mutated clone. In hematopoietic stem cells, clonal hematopoiesis of specific genes has proven to be a clinically significant premalignant state associated with several inflammatory disease processes. The differentiation of low-frequency somatic variants from sequencing artefacts is an ongoing challenge in genetic research. Consensus sequencing by attaching unique molecular identifiers (UMIs) to the DNA fragments aims to solve this problem. This thesis compares UMI-based variant calling against a non-UMI-based method. The problem is studied in the context of clonal hematopoiesis in rheumatoid arthritis patients. After several filtering steps, the UMI-based variant calling method detected significantly more low-frequency variants than the non-UMI-based method. However, there is a notable amount of recurring variants. Additionally, UMI-based variant calling was less sensitive to outlier samples with substandard sample quality. The results show a weak association between seronegative rheumatoid arthritis and mutations in typical clonal hematopoiesis genes. The link could be studied in future research to shed light on the unknown etiology of seronegative RA.

Somaattisia mutaatioita kertyy elinaikana kaikkiin soluihin, mikä johtaa satunnaisesti kasvuetuun ja edistää mutaatiokloonin leviämistä. Verisolujen kantasoluissa esiintyvän tiettyjen geenien klonaalisen hematopoieesin on osoitettu olevan sairauden esiaste ja liittyvän moniin inflammatorisiin tautiprosesseihin. Matalan frekvenssin somaattisten varianttien erottaminen sekvensointiartefaktasta on haaste geneettisessä tutkimuksessa. Konsensussekvensointi, jossa DNA-pätkään liitetään uniikki molekulaarinen tunniste (UMI), pyrkii ratkaisemaan haasteen. Tämä työ vertailee UMI-pohjaista varianttikutsumismenetelmää ei-UMI-pohjaiseen. Kysymystä tutkitaan nivelreumapotilaiden klonaalisen hematopoieesin kontekstissa. Monen suodatusaskelen jälkeen UMI-pohjainen menetelmä tunnisti selkeästi enemmän matalan frekvenssin variantteja kuin ei-UMI-pohjainen menetelmä. Moni varianteista oli kuitenkin toistuvia. UMI-pohjainen varianttien kutsuminen oli vähemmän herkkä tunnistamaan laadullisesti poikkeavia näytteitä. Tuloksissa nähdään heikko assosiaatio seronegatiivisen nivelreuman ja klonaalisen hematopoieesin geenien mutaatioiden välillä. Yhteyttä voitaisiin tutkia tulevaisuudessa seronegatiivisen nivelreuman epäselvän etiologian selvittämiseksi.

Description

Supervisor

Lähdesmäki, Harri

Thesis advisor

Myllymäki, Mikko
Mustjoki, Satu

Keywords

next-generation sequencing, variant calling, unique molecular identifier, clonal hematopoiesis, rheumatoid arthritis

Other note

Citation