Functional segmentation of the methylome at whole-genome scale across multiple patient samples
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
Department
Major/Subject
Mcode
SCI3060
Degree programme
Language
en
Pages
59
Series
Abstract
DNA-methylation is an epigenetic regulator of the genome, which means it controls the phenotypes of the cells. Hypermethylation, that is, the presence of methylation, in a control region of a gene means it is not expressed, while hypomethylation, that is, lack of methylation, means it is expressed. DNA-methylation is traditionally studied using array based-data and looking only at specific, well-known regions. Recent technology has made it possible to study the whole methylome with the resolution of a single CpG site, but we have to date no reliable annotation of all functional regions in the methylome. Most studies focus on either finding differentially methylated regions between a control and a case group, or on finding cell type-specific markers in the methylome. However, neither of these approaches give a full map of all functional segments, which could be of interest when studying for example cancer. I here present a hierarchical clustering-based approach of splitting the whole methylome into segments, that can be used to determine functional regions. Assuming a binomial model for the methylation data, the clustering is based on maximizing a likelihood function. Since the human genome has in total 29 million CpG sites, leading to 58 million possible cytosines to be methylated in the double stranded DNA, any algorithm implemented for methylation-data needs to be both time and memory efficient. My implementation utilizes a reciprocal nearest neighbor algorithm for the hierarchical clustering. The purpose of this thesis is to discuss the segmentation problem and introduce a solution to it. The segmentation method I present here successfully captures the methylation pattern of the genome, but more specific assumptions are needed to find the actual functional segments.DNA-metylering är en epigenetisk mekanism i vårt genom, vilket innebär att det regularar fenotypen hos celler. Hypermetylering i en gens kontrollregion innebär att den är tystad, medan hypometylering innebär att den är aktiv. Studier av DNA-metylering är traditionellt utförda på data från mikromatriser och omfattar endast vissa utvalda regioner i DNA. Modern teknologi har gjort det möjligt att utvinna data som omfattar hela metylomet ända ner till en exakthet på en CpG, men ändå finns det ingen pålitlig annotering av alla funktionella segment. De flesta studier fokuserar på antingen differentiellt metylerade regioner mellan en test- och en kontrollgrupp eller på celltypsspecifika regioner i metylomet. Dock ger inte dessa metoder en fullständig annotering av alla funktionella områden i metylomet. Här presenterar jag en segmenteringsmetod som baserar sig på hierarkisk klustring. Metyleringsdatat antas följa en binomialmodell, och klustringen baserar sig på att slå ihop segment som maximerar en likelihood-funktion. Eftersom människans genom har närmare 29 miljoner CpG dinukleotider vilket ger 58 miljoner cytosin-baser som kan ta emot en metylgrupp, innebär det att en algoritm ämnad för metyleringsstudier måste vara både minnes- och tidseffektiv. Min implementering använder sig av en metod baserad på inversa närmastegrannar. Syftet med detta arbete är att diskutera segmenteringsproblemet och att introducera en lösning. Segmenteringsmetoden jag presenterar här lyckas bra med att fånga metyleringsmönstret i mitt data, men mer specifika antaganden behövs för att verkligen hitta alla funktionella regioner.Description
Supervisor
Marttinen, PekkaThesis advisor
Häkkinen, AnttiHautaniemi, Sampsa