Detecting DNA modifications and adducts from nanopore sequencing data with deep learning methods

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorPitkänen, Esa
dc.contributor.advisorPalin, Kimmo
dc.contributor.authorKoski, Yrjö
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.supervisorLähdesmäki, Harri
dc.date.accessioned2021-03-21T18:09:20Z
dc.date.available2021-03-21T18:09:20Z
dc.date.issued2021-03-15
dc.description.abstractIn this thesis, I studied deep learning methods for the detection of DNA modifications and adducts from nanopore sequencing data. The most popular methods for DNA sequencing are the next-generation sequencing (NGS) methods such as Illumina sequencing. However, detecting DNA modifications, such as 5-methylcytosine (5mC) methylations, using NGS-methods requires specific study protocols. Nanopore sequencing is a third-generation sequencing method that provides rich signal information along with basecall information. This signal can be used to detect epigenetic features such as DNA modifications, and potentially DNA adducts, without the need for separate study protocols. There have been multiple different approaches for modification detection from nanopore sequencing data in recent years and some of the most promising approaches have used deep learning. In this work, I propose a novel neural network architecture that can detect 5mC-methylations at high accuracy. My model uses multimodal input data and consists of two separate modules that apply Inception and Transformer networks. The methylation detection model performs comparably to the state-of-the-art methods but the training time of the model is drastically lower due to the model architecture. I also propose a completely novel approach for detecting DNA adducts from nanopore sequencing data indirectly via read end prediction that is done with the same model architecture. The results are promising, but further research needs to be done in order to validate my hypothesis and to improve the accuracy of the approach.en
dc.description.abstractDiplomityössäni tutkin syväoppimismenetelmiä DNA:n muunnosemästen sekä adduktien tunnistamiseen nanopore-sekvensointidatasta. Nykyisin käytetyimmät menetelmät DNA:n sekvensointiin hyödyntävät nopeaa suurtehosekvensointia, kuten Illumina-sekvensointi. Näillä menetelmillä DNA:n muunnosemästen, kuten 5-metyylisytosiinin, tunnistaminen vaatii erikoistuneita koeasetelmia, kuten bisulfiittisekvensointia. Nanopore-sekvensointi on kolmannen sukupolven sekvensointimenetelmiin kuuluva teknologia, joka tuottaa emässekvenssin lisäksi signaalimittauksia, joiden avulla emästen tunnistaminen tehdään. Tätä signaalia voidaan hyödyntää myös emäsmuunnosten tunnistamiseen, ja mahdollisesti myös adduktien tunnistamiseen, ilman tarvetta erikoistuneille koeasetelmille. Viime vuosien aikana on kehitetty useita menetelmiä, jotka tunnistavat nanopore-sekvensointidatasta emäsmuunnoksia ja useat lupaavat menetelmät hyödyntävät syväoppimista. Esitän tässä diplomityössä uuden syväoppimismallin, joka pystyy tunnistamaan 5-metyylisytosiinin nanopore-sekvensointidatasta korkealla tarkkuudella. Mallini hyödyntää kahta eri tyyppistä syötedataa ja se rakentuu kahdesta moduulista, jotka hyödyntävät transformer- ja inception-neuroverkkoja. Tämä metylaatioiden tunnistamiseen tehdyn mallin tarkkuus on verrattavissa alan lippulaivamalleihin, mutta neuroverkkoarkkitehtuurinsa vuoksi sen kouluttaminen on huomattavasti nopeampaa kuin kirjallisuudessa esitetyn syväoppimismallin, johon vertasin malliani. Lisäksi esitän työssäni täysin uudenlaisen hypoteesin, jolla DNA-addukteja voisi tunnistaa epäsuorasti nanopore-sekvensointidatasta ennustamalla luettavien sekvenssien loppumista samalla mallilla, jota käytin metylaatioiden tunnistamiseen. Mallin tulokset ovat lupaavia, mutta tarvitaan lisää tutkimusta, jotta hypoteesini voidaan varmistaa ja jotta mallin tulokset paranevat.fi
dc.format.extent89 + 7
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/103119
dc.identifier.urnURN:NBN:fi:aalto-202103212398
dc.language.isoenen
dc.programmeMaster’s Programme in Life Science Technologiesfi
dc.programme.majorBioinformatics and Digital Healthfi
dc.programme.mcodeSCI3092fi
dc.subject.keyworddeep learningen
dc.subject.keywordnanopore sequencingen
dc.subject.keywordDNA modificationsen
dc.subject.keywordDNA adductsen
dc.subject.keywordcolibactinen
dc.titleDetecting DNA modifications and adducts from nanopore sequencing data with deep learning methodsen
dc.titleDNA:n muunnosemästen ja adduktien tunnistaminen nanopore-sekvensointidatasta syväoppimismenetelmilläfi
dc.typeG2 Pro gradu, diplomityöfi
dc.type.ontasotMaster's thesisen
dc.type.ontasotDiplomityöfi
local.aalto.electroniconlyyes
local.aalto.openaccessyes
Files
Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
master_Koski_Yrjö_2021.pdf
Size:
17.89 MB
Format:
Adobe Portable Document Format