A deep learning method for predicting T cell receptor binding to unseen epitopes

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2022-12-12

Department

Major/Subject

Bioinformatics and Digital Health

Mcode

SCI3092

Degree programme

Master’s Programme in Life Science Technologies

Language

en

Pages

63+4

Series

Abstract

T cells are a vital part of the immune system, defending us against invading pathogens and cancer. However, T cells can also target non-infected healthy cells of the individual causing autoimmune diseases. The recognition of a target cell, whether disease causing or healthy, is mediated by the T cell receptor (TCR). More specifically the TCR recognizes a peptide fragment, an epitope, presented by the major histocompatibility complex (MHC) by binding to it. Understanding this recognition would be valuable and could be used in many medical applications. In this thesis a deep learning model for the prediction of TCR-peptide-MHC binding is presented. Most current models use the epitopes as a categorical variable, being unable to predict for epitopes outside the training distribution. Our model uses the epitope amino acid sequence and is able to predict for previously unseen epitopes. In addition to the epitope our model uses the MHC allele and the complementarity determining region 3 (CDR3) V and J genes of both chains or either chain of the TCR. The amino acid information of the epitope and TCR are combined using self-attention. We show that different learning rates in the optimization scheme work well for the seen and for the unseen task and how different input features are important for different tasks. The task of unseen epitope prediction is still a very hard task, and the performance is significantly worse than in the seen epitope case. Finally, we show that our model outperforms or is comparable to state of the art methods that are able to predict for unseen epitopes.

T-celler utgör en central del av immunförsvaret och skyddar oss mot invaderande patogener och cancer. T-celler kan även känna igen kroppens egna oinfekterade celler och därmed orsaka autoimmuna sjukdomar. För att känna igen friska, såsom sjukdomsframkallande celler, binder sig T-cellsreceptorer (TCR) till epitoper. Mer specifict binder sig receptorerna till epitoper presenterade av histokompatibilitetskomplex (MHC). Att förstå denna igenkännelse är viktigt och kan ha flera tillämpningar inom medicin. I denna avhandling introduceras en djupinlärningsmodell som förutspår om en TCR binder till ett peptid-MHC komplex. De flesta nuvarande modeller använder epitoper som en kategorisk variabel, vilket leder till att man inte kan förutspå för epitoper utanför dessa träningsdata. Vår modell använder epitopens aminosyrasekvens och kan därmed förutspå bindning av osedda epitoper. Modellen använder även MHC allelen och CDR3 (eng. complementarity determining region 3), V och J generana från antingen båda eller någondera av TCR kedjorna. Vi visar att olika sätt att optimera modellen för den osedda och sedda uppgiften gynnar förutsägelsen. Vi visar även att olika slags indata påverkar båda uppgifterna olika Uppgiften att förutspå för osedda epitoper är tillsvidare mycket svår jämfört med att förutspå för sedda epitoper. Till slut visar vi att vår modell presterar bättre eller jämförbart än de senaste modellerna som kan förutspå för osedda epitoper.

Description

Supervisor

Lähdesmäki, Harri

Thesis advisor

Jokinen, Emmi

Keywords

TCR, epitope, pMHC, deep learning, self-attention

Other note

Citation