Large-scale Analysis of Immune Receptor Repertoires in RNA Sequencing Data from Autoimmune Disorders
No Thumbnail Available
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Authors
Date
2022-08-22
Department
Major/Subject
Complex Systems
Mcode
SCI3060
Degree programme
Master’s Programme in Life Science Technologies
Language
en
Pages
vii+50
Series
Abstract
The immune system protects us from harmful pathogens by various mechanisms and processes. In autoimmune diseases, the immune system is not functioning correctly and causes harmful symptoms in an individual. The exact cause of autoimmune diseases is often unclear but many of the diseases have been shown to associate with dysfunctioning T cells and risk alleles in the human leukocyte antigen (HLA) region of the major histocompatibility complex. RNA sequencing (RNA-seq) is a next-generation sequencing method commonly used to analyse differential gene expression. Modern methods in bioinformatics however can profile T-cell receptors (TCR) and HLA typing from RNA-seq data. This allows analysing the adaptive immune system from RNA-seq in different and more detailed manners. In this study we gathered nearly 2 000 publicly available RNA-seq samples from the Sequence Read Archive. These samples spanned over 20 datasets and include individuals with inflamed bowel disease (IBD) and Celiac disease. We profiled the immune receptor repertoires of the samples to study them in different conditions. Additionally, we analysed how different sequencing parameters affect this type of analysis. We used MiXCR and PHLAT to profile the TCRs and HLA typings of the samples. To further analyse the immune receptor repertoires we computed various statistics of the TCRs by VDJtools, clustered them with GLIPH2 and predicted epitope-specificities with TCRGP. Our results show that using lower quality sequencing parameters and biopsy samples correlates with profiling a lower amount of TCRs from a sample. Additionally, we see different sorting strategies affecting the V gene segment usage of the TCRs. Despite the large heterogeneity of the dataset, we show that the TCRs from different samples share similarities by which they can be clustered together. We can also see that TCRs from samples with different sorting strategies do not create systematic biases in the results of TCRGP and it could thus be used for building models of autoreactive TCRs if sufficient data would exist. We conducted internal validation to inspect the reliability of the results of HLA typing and inspected that results between multiple samples of a patient mostly agree with each other. We additionally calculated over and underexpressed HLA genes in each condition and found HLA genes that have been previously shown to be risk alleles in IBD. This thesis successfully showcases the possibilities of conducting a study of TCRs and HLAs from RNA-seq data by building a novel dataset and replicating previous results. It also works as a basis for analysing other datasets and for expanding the dataset used in the study.Immuunijärjestelmä on elimistömme puolustusjärjestelmä taudinaiheuttajilta. Autoimmuunisairauksissa immuunijärjestelmämme ei toimi odotetusti aiheuttaen erilaisia oireita ja jopa vahingoittaen terveitä soluja ja kudoksia. Näiden sairausten puhkeamisen syy on usein heikosti tunnettu, mutta monien sairausten on osoitettu olevan yhteydessä T-soluihin ja HLA-geenialueeseen. RNA-sekvensointi on suurtehosekvensointimenetelmä, jota käytetään usein geeniekspressioiden analysointiin. Nykyaikaiset työkalut mahdollistavat myös T-solureseptorien ja HLA-tyypitysten määrittämisen RNA-sekvensointidatasta. Tämä mahdollistaa edellä mainitun datan käyttämisen tutkimuksiin, jotka tarkastelevat immuunijärjestelmämme hankittua vastustuskykyä erilaisin ja yksityiskohtaisimmin tutkimuskysymyksin. Diplomityössä keräsimme lähes kaksi tuhatta julkisesti ladattavissa olevaa RNA-sekvensointidatanäytettä Sequence Read Archive -tietokannasta. Nämä näytteet olivat kymmenistä projekteista, jotka sisälsivät potilasnäytteitä tulehduksellisista suolistosairauksista ja keliakiasta. Määritimme laskennallisesti näytteissä esiintyvät T-solureseptorit ja HLA-tyypitykset tutkiaksemme niiden piirteitä eri sairauksissa. Tarkastelimme tämän lisäksi sekvensointiparametrien vaikutusta suorittamaamme analyysiin. Käytimme datan analysointiin valmiiksi kehiteltyjä metodeja: MiXCR:iä T-solureseptorien määrittämiseen, PHLAT:ia HLA-tyypitykseen, VDJtoolsia ja GLIPH2:a T-solureseptorien laskennalliseen tarkasteluun ja klusterointiin, sekä TCRGP:tä ennustamaan mitä T-solureseptorit tunnistavat. Diplomityön tulokset osoittavat heikompien sekvensointiparametrien ja kudosnäytteiden käytön vähentävän T-solureseptorien laskennallista saantia. Havaitsemme myös näytteiden erilaisen solutason koostumuksen vaikutuksen T-solureseptorien V-geenialueiden käytössä. Tietojoukkomme vaihtelevuudesta huolimatta löysimme kuitenkin T-solureseptoreiden yhtäläisyyksiin pohjautuvia monien näytteiden T-solureseptoreja kattavia klustereita. Osoitimme myös, etteivät näytteiden vaihtelevat prosessointitavat luo systemaattisia vinoumia TCRGP:n tuloksiin, ja uskommekin sen olevan sopiva työkalu autoreaktiivisten T-solureseptorien tunnistamiseen mahdollisen sopivan datan löytyessä. Totesimme HLA-tyypitysten olevan yhdenmukaisia vertailemalla tuloksia potilaskohtaisesti eri näytteistä. Osoitimme tilastollisella analyysillä näytteiden ilmentävän eri sairauksiin jo muissa tutkimuksissa yhdistettyjä riskialleeleja. Diplomityössä esittelemme tämän analyysin mahdollisuuksia keräämällä uuden tietojoukon ja toistamalla sen avulla aiemmin esitettyjä ilmiöitä. Diplomityön analyysi luo myös perustan muidenkin näytekokonaisuuksien analysointiin ja diplomityössä käytetyn tietojoukon laajentamiseen.Description
Supervisor
Lähdesmäki, HarriThesis advisor
Mustjoki, SatuHuuhtanen, Jani
Keywords
rna-seq, autoimmune disease, t cell, tcr, hla, bioinformatics