Using DNase I hypersensitivity Data for Transcription Factor Binding Predictions

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Sähkötekniikan korkeakoulu | Master's thesis

Department

Mcode

IL3003

Language

en

Pages

58+7

Series

Abstract

Transkriptio on solujen välttämätön informaatioprosessi ja transkriptiota säädellään pääasiassa DNA:han sitoutuvilla proteiineilla, joita kutsutaan transkriptiotekijöiksi. Transkription ymmärtäminen on elintärkeää ymmärtääksemme tärkeimpiä biologisia toimintoja, kuten geeniekspressiota ja geenien säätelyverkostojen toimintaa. Nykyään transkriptiotekijöiden sitoutumiskohdat määritetään sekvensoimalla geneettinen materiaali kromatiinin vasta-ainesaostuskokeesta, mutta tällä menetelmällä on useita heikkouksia. Näiden ongelmien vuoksi DNaasi I hypersensitiivisten alueiden sekvensointia käytetään enenemässä määrin geenien säätelyalueita etsittäessä. Laskennallisia menetelmiä tarvitaan määrittäämään transkriptiotekijöiden sitoutumiskohdat tarkasti käyttäen tätä uudenlaista dataa. Tässä työssä kehitettiin uusi menetelmä, BinDNase, transkriptiotekijöiden sitoutumisennusteiden tekoon käyttäen DNase I hypersensitiivisyysdataa. Menetelmää käytettiin ennustusten laatimiseen 57 eri transkriptiotekijälle solutyypissä K562 ja BinDNase:n ennusteet ovat tarkempia kuin muiden olemassa olevien menetelmien. BinDNase:lla saadut tulokset viittaavat siihen, että DNase I dataa pitäisi käyttää usealla eri resoluutiolla tarkimman mahdollisen resoluution sijaan. Tässä työssä osoitetaan, että ennusteet pitäisi tehdä erikseen kaikille transkriptiotekijöille ja että sekvensointisyvyys jo olemassa olevissa aineistoissa on riittävä ennustusten tekoon useimmilla transkriptiotekijöillä. Näytämme vielä, että BinDNase:lla rakennetut mallit yleistyvät toisille solutyypeille. Tämä tekee menetelmästä tehokkaan työkalun transkriptiotekijöiden sitoutumisennusteiden tekoon käyttäen DNase I hypersensitiivisyysdataa.

Transcription is a key information process in the cell and transcriptional regulation is largely controlled by DNA binding proteins called transcription factors. Understanding transcription factor binding is integral to understanding the most important biological events, such as gene expression and the function of gene regulatory networks. Currently transcription factor binding sites are determined by chromatin immunoprecipitation followed by sequencing, but this method has several limitations. To overcome these caveats, DNase I hypersensitive sites sequencing is increasingly being used for mapping gene regulatory sites. Computational tools are needed to accurately determine transcription factor binding sites from this new type of data. In this work a novel method, BinDNase, is developed for detecting transcription factor binding sites using DNase I hypersensitivity data. The method is applied to 57 different transcription factors in cell type K562. We demonstrate that the prediction performance of BinDNase exceeds the performance of other existing methods. Our results indicate that DNase I hypersensitivity data should be used in multiple resolutions instead of the highest possible resolution. We also show that the binding predictions should be made separately for each transcription factor and that the sequencing depth of currently available data sets is sufficient for binding predictions for most transcription factors. Finally, we show that models built with BinDNase generalize between different cell types making the method a powerful tool in transcription factor binding predictions using DNase I hypersensitivity data.

Description

Supervisor

Lähdesmäki, Harri

Thesis advisor

Lähdesmäki, Harri

Other note

Citation