Human leukocyte antigen (HLA) genotyping from next-generation sequencing data – a comparison of existing methods

No Thumbnail Available
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Ask about the availability of the thesis by sending email to the Aalto University Learning Centre oppimiskeskus@aalto.fi
Date
2016-04-28
Department
Major/Subject
Bioinformatiikka
Mcode
T3012
Degree programme
Master's Programme in Bioinformatics (MBI)
Language
en
Pages
109
Series
Abstract
The major histocompatibility complex (MHC) codes for a variety of immunologically important genes. The most well-known are the human leukocyte antigen (HLA) genes which code for receptors that present antigens to lymphocytes. Thus, HLA molecules help to induce an immune response towards pathogenic factors. Due to their role in separating self from non-self structures, HLAs are crucial in clinical tissue transfers. In fact, differences in HLAs between the donor and the patient are known to cause graft rejection and graft-versus-host disease. This means that transfers can be performed only between HLA matched donor-patient pairs. Currently, HLA typing is performed on a subset of HLA genes. Despite these efforts, a successful treatment result cannot be guaranteed. This is likely due to the fact that many other immunologically relevant genes are left uncharacterized. Next-generation sequencing (NGS) could produce more comprehensive data to support HLA typing. However, analysis of NGS data derived from the highly polymorphic and repetitive MHC/HLA locus is not easy. This means that the typical read mapping and variant calling approaches used for standard NGS data analysis cannot be utilized. To tackle these issues, several pipelines designed solely for the purpose of HLA genotyping from NGS data have been developed. All of these programs utilize a wide reference HLA allele set against which the NGS data is analyzed. Typically, HLA genotype calling is either based on the observation of read-to-reference alignments or the construction of longer read contigs followed by comparison to the reference panel. The aim of this work was to investigate available analysis options for HLA typing from NGS data and to test such solutions with targeted NGS data. Specifically, we tested four open-source pipelines two of which were based on read assembly (HLAreporter, ATHLATES), and the other two on read mapping (HLAssign, OptiType). In addition, a commercial program (Omixon Target) was tested. The programs were evaluated by comparing the generated predictions to known HLA genotypes. Additionally, a majority vote of all the predictions at each locus was constructed in order to gain high-confidence HLA genotype calls despite program-wise errors. We conclude that even though the programs performed well, not one of them was error-free. Thus, HLA typing from NGS data is not flawless and care should be taken in interpreting the results and choosing the program(s) to be used.

MHC-alue (major histocompatibility complex), sisältää monia immuunipuolustuksen toiminnan kannalta olennaisia geenejä. Näistä tunnetuimpia ovat HLA-geenit (human leukocyte antigen), jotka toimivat reseptoreina ja esittelevät antigeenejä valkosoluille. Nämä molekyylit edesauttavat immuunivasteen syntymistä elimistön kohdatessa vierasperäisiä rakenteita, ja ne ovat tärkeitä elimistön kyvylle erottaa haitalliset molekyylit omista kudoksista. Tämän vuoksi HLA:t ovat erityisessä roolissa kudossiirtoja tehtäessä. Jos HLA-eroja luovuttajan ja potilaan välillä ei huomioida, potilaan elimistö voi alkaa hylkiä siirrettä tai siirre potilaan kudoksia. Elin- ja luuydinsiirtoja voidaankin tehdä vain HLA-sopivien henkilöiden välillä. HLA-tyypittäminen kohdistuu tärkeimpiin HLA-geeneihin. Tämä ei kuitenkaan takaa onnistunutta hoitotulosta, sillä suuri joukko muita immunogeneettisesti tärkeitä geenejä jää tyypityksen ulkopuolelle. Uuden sukupolven sekvensointitekniikat (next-generation sequencing, NGS) voisivat tuottaa kattavampaa dataa HLA-tyypitystä varten. MHC-alueelta peräisin olevan NGS-datan analysointi on kuitenkin haasteellista, sillä tämä alue on tunnettu monimuotoisuudestaan. Tyypillisiä linjaus- ja variantintunnistusmenetelmiä ei siis voi soveltaa NGS-datasta tehtävään HLA-tyypitykseen. Useimmat tähän tarkoitukseen kehitetyt ohjelmat sisältävätkin yhden referenssigenomin sijaan alleelipaneelin, joka sisältää kaikki tunnetut HLA-alleelit. Data-analyysi tehdään yleensä tällöin joko tarkastelemalla sekvenssien linjautumista referenssialleeleihin tai kokoamalla sekvenssit ensin laajemmiksi pätkiksi ja vertaamalla näitä referenssialleeleihin. Tässä työssä selvitettiin mitä analyysiohjelmia NGS-pohjaiseen HLA-tyypitykseen on saatavilla, ja testattiin näitä ratkaisuja omalla NGS-datalla. Kokeilimme neljää ilmaista ohjelmaa, joista kaksi perustuivat laajempien sekvenssien koontiin (HLAreporter, ATHLATES) ja kaksi sekvenssi-alleeli –linjausten tarkasteluun (HLAssign, OptiType). Lisäksi testasimme yhtä kaupallista ohjelmaa (Omixon Target). Arvioimme ohjelmien tarkkuutta vertaamalla saatuja ennusteita tunnettuihin HLA-genotyyppeihin. Lopuksi muodostimme ohjelmien äänestystuloksista enemmistöpäätöksen, jonka tarkoituksena oli tuottaa luotettava HLA-genotyyppi yksittäisistä virhe-ennustuksista huolimatta. Vaikka ohjelmat onnistuivat toistamaan tunnetut genotyypit melko hyvin, yksikään niistä ei ollut virheetön. NGS-datasta määritettyihin HLA-genotyyppeihin tulisikin suhtautua varauksella, ja käytettävät analyysiohjelmat pitäisi valita huolellisesti.
Description
Supervisor
Rousu, Juho
Thesis advisor
Larjo, Antti
Keywords
HLA typing, next-generation sequencing, majority vote, HLA typing programs
Other note
Citation