Detecting DNA modifications and adducts from nanopore sequencing data with deep learning methods

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2021-03-15
Department
Major/Subject
Bioinformatics and Digital Health
Mcode
SCI3092
Degree programme
Master’s Programme in Life Science Technologies
Language
en
Pages
89 + 7
Series
Abstract
In this thesis, I studied deep learning methods for the detection of DNA modifications and adducts from nanopore sequencing data. The most popular methods for DNA sequencing are the next-generation sequencing (NGS) methods such as Illumina sequencing. However, detecting DNA modifications, such as 5-methylcytosine (5mC) methylations, using NGS-methods requires specific study protocols. Nanopore sequencing is a third-generation sequencing method that provides rich signal information along with basecall information. This signal can be used to detect epigenetic features such as DNA modifications, and potentially DNA adducts, without the need for separate study protocols. There have been multiple different approaches for modification detection from nanopore sequencing data in recent years and some of the most promising approaches have used deep learning. In this work, I propose a novel neural network architecture that can detect 5mC-methylations at high accuracy. My model uses multimodal input data and consists of two separate modules that apply Inception and Transformer networks. The methylation detection model performs comparably to the state-of-the-art methods but the training time of the model is drastically lower due to the model architecture. I also propose a completely novel approach for detecting DNA adducts from nanopore sequencing data indirectly via read end prediction that is done with the same model architecture. The results are promising, but further research needs to be done in order to validate my hypothesis and to improve the accuracy of the approach.

Diplomityössäni tutkin syväoppimismenetelmiä DNA:n muunnosemästen sekä adduktien tunnistamiseen nanopore-sekvensointidatasta. Nykyisin käytetyimmät menetelmät DNA:n sekvensointiin hyödyntävät nopeaa suurtehosekvensointia, kuten Illumina-sekvensointi. Näillä menetelmillä DNA:n muunnosemästen, kuten 5-metyylisytosiinin, tunnistaminen vaatii erikoistuneita koeasetelmia, kuten bisulfiittisekvensointia. Nanopore-sekvensointi on kolmannen sukupolven sekvensointimenetelmiin kuuluva teknologia, joka tuottaa emässekvenssin lisäksi signaalimittauksia, joiden avulla emästen tunnistaminen tehdään. Tätä signaalia voidaan hyödyntää myös emäsmuunnosten tunnistamiseen, ja mahdollisesti myös adduktien tunnistamiseen, ilman tarvetta erikoistuneille koeasetelmille. Viime vuosien aikana on kehitetty useita menetelmiä, jotka tunnistavat nanopore-sekvensointidatasta emäsmuunnoksia ja useat lupaavat menetelmät hyödyntävät syväoppimista. Esitän tässä diplomityössä uuden syväoppimismallin, joka pystyy tunnistamaan 5-metyylisytosiinin nanopore-sekvensointidatasta korkealla tarkkuudella. Mallini hyödyntää kahta eri tyyppistä syötedataa ja se rakentuu kahdesta moduulista, jotka hyödyntävät transformer- ja inception-neuroverkkoja. Tämä metylaatioiden tunnistamiseen tehdyn mallin tarkkuus on verrattavissa alan lippulaivamalleihin, mutta neuroverkkoarkkitehtuurinsa vuoksi sen kouluttaminen on huomattavasti nopeampaa kuin kirjallisuudessa esitetyn syväoppimismallin, johon vertasin malliani. Lisäksi esitän työssäni täysin uudenlaisen hypoteesin, jolla DNA-addukteja voisi tunnistaa epäsuorasti nanopore-sekvensointidatasta ennustamalla luettavien sekvenssien loppumista samalla mallilla, jota käytin metylaatioiden tunnistamiseen. Mallin tulokset ovat lupaavia, mutta tarvitaan lisää tutkimusta, jotta hypoteesini voidaan varmistaa ja jotta mallin tulokset paranevat.
Description
Supervisor
Lähdesmäki, Harri
Thesis advisor
Pitkänen, Esa
Palin, Kimmo
Keywords
deep learning, nanopore sequencing, DNA modifications, DNA adducts, colibactin
Other note
Citation