Modeling protein-DNA binding specificities with random forest

No Thumbnail Available
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2018-01-22
Department
Major/Subject
Bioinformatics
Mcode
CI3058
Degree programme
Master’s Programme in Life Science Technologies
Language
en
Pages
86+7
Series
Abstract
Protein-DNA binding specifities are modeled with random forest in this Master's thesis. Specific proteins called transcriptional factors are essential for gene expression regulation, since their binding on DNA can alter transcription initiation probability of target genes. Furthermore, transcriptional factors can bind DNA as dimers even though as individuals they would lack the required affinity for the binding site. Thus, models that predict individual protein and protein dimer binding sites, would be beneficial for deducing gene regulatory networks. In this Master's thesis HT-SELEX and CAP-SELEX data sets measured by Jolma et al. are utilized for modeling binding specificities. SELEX measurements yield large sets of DNA sequences, which are known to comprise a binding site. HT-SELEX measure individual transcriptional factor binding sites while CAP-SELEX measure binding sites of transcriptional factor dimers. Currently, position weight matrices (PWM) are most often utilized for modeling protein-DNA binding specifities even though they may be too simple and inflexible for accurate modeling. For instance a neural network model, DeepBind, have been shown to outperform PWM modeling significantly. In this Master's thesis, random forest, which is known to be well suited for high-dimensional and correlated data, is combined with PWMs to yield models for protein-DNA binding specifities. For individual transcriptional factor binding sites random forest perform almost equally to DeepBind and outperform PWM modeling significantly. In addition, random forest predict protein dimer binding sites significantly more accurately than position weight matrices. Furthermore, the difference between random forest and PWM modeling is greater for protein pairs than for individual proteins. In addition, DeepBind is not currently provided for transcriptional factor pairs. Thus, according to results represented in this Master's thesis, modeling protein-DNA binding specificities with random forest is beneficial in comparison to position weight matrices especially for protein dimers.

Diplomityössä mallinnetaan satunnaismetsällä proteiini-DNA sitoutumisspesifisyyksiä. Transkriptiotekijät ovat proteiineja, jotka säätelevät geenien ilmentymistä sitoutumalla DNA juosteelle ja täten laskemalla tai kasvattamalla kohdegeenien transkription todennäköisyyttä. Lisäksi transkriptiotekijät voivat sitoutua DNA juosteelle dimeerisessä muodossa, vaikka yksittäisinä proteiineina näiden sitoutumisaffiniteetti ei olisikaan ollut riittävä kyseiselle sitoutumiskohdalle. Diplomityössä käytetään sitoutumisspesifisyyksien mallintamiseen Jolma et al. mittaamia HT-SELEX ja CAP-SELEX aineistoja. SELEX mittaukset tuottavat suuren joukon DNA juosteita, jotka sisältävät sitoutumiskohdan. HT-SELEX menetelmällä mitataan sitoutumiskohtia yksittäisille proteiineille ja CAP-SELEX menetelmällä proteiinipareille. Tällä hetkellä sitoutumisspesifisyyksiä mallinnetaan useimmiten positio paino matriiseilla (PPM), vaikka ne saattavat olla liian yksinkertaisia ja joustamattomia sitoutumiskohtien todenmukaiseen mallintamiseen. Esimerkiksi neuroverkkoihin perustuvan DeepBind mallin on näytetty ennustavan sitoutumiskohtia merkittävästi tarkemmin kuin positio paino matriisien. Diplomityössä mallinnetaan proteiinien sitoutumiskohtia yhdistämällä PPM malleja ja satunnaismetsä-mallinnusta, jonka tiedetään soveltuvan hyvin moniulotteiselle sekä korreloituneelle datalle. Työn tuloksista selvisi, että satunnaismetsä ennustaa yksittäisten proteiinien sitoutumiskohtia lähes samalla tarkkuudella kuin DeepBind ja että ennustustarkkuus on merkittävästi korkeampi kuin PPM malleilla. Satunnaismetsällä voi lisäksi mallintaa proteiiniparien sitoutumiskohtia merkittävästi tarkemmin kuin positio paino matriiseilla. Ero ennustustarkkuudessa satunnaismetsän ja PPM mallinnuksen välillä on suurempi proteiinipareilla kuin yksittäisillä proteiineilla. Lisäksi DeepBindia ei tarjota tällä hetkellä proteiinipareille. Täten Diplomityön tulosten perusteella satunnaismetsä on suositeltava menetelmä proteiini-DNA sitoutumisspesifisyyksien mallintamiseen erityisesti dimeeristä sitoutumista mallinnettaessa.
Description
Supervisor
Lähdesmäki, Harri
Thesis advisor
Heinonen, Markus
Keywords
random forest, binding specificity, transcriptional factor, decision tree, motif, gene expression
Other note
Citation