Aktiivisten DNA-muutosten seulonta riippuvuusmalleilla
No Thumbnail Available
Journal Title
Journal ISSN
Volume Title
Elektroniikan, tietoliikenteen ja automaation tiedekunta |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Author
Date
2010
Department
Major/Subject
Informaatiotekniikka
Mcode
T-61
Degree programme
Language
fi
Pages
[8] + 38
Series
Abstract
Syövän kehittymiseen liittyy geneettiset muutokset useissa solun kasvuun, jakautumiseen tai kuolemaan liittyvissä geeneissä. Näissä syöpään liittyvissä geeneissä mutaatiot aiheuttavat muutoksia geenin aktiivisuudessa syöpäsoluissa. Sekä mutaatioita että geenien aktiivisuuksia voidaan mitata geenisiruilla. Näiden kopioluku- ja ilmentymämittausten avulla voidaan etsiä syöpään liittyviä geenejä. Tässä työssä tutkittiin todennäköisyysperusteiseen kanoniseen korrelaatioanalyysiin perustuvien riippuvuusmallien käyttämistä syöpägeenien etsimisessä. Tässä menetelmässä etsintä tehdään tutkimalla kopioluku- ja ilmentymämittauksien yhteyksiä riippuvuusmalleilla kunkin geenin ympäristössä. Nämä riippuvuusmallit mahdollistavat myös etukäteistiedon hyväksikäytön rajoittamalla tutkittava riippuvuutta. Syöpägeenien etsinnässä voidaan käyttää etukäteistietona syöpägeeneihin liittyvän kopioluku- ja ilmentymämuutoksien paikkariippuvuutta. Tällä rajoitettiin menetelmän etsimä riippuvuus vain saman geenin mittausten välille. Tämä pienensi pienestä näytemäärästä johtuvaa mallin ylisovitusta. Rajoitettujen riippuvuusmallien käyttö paransi menetelmän toimivuutta selkeästi. Menetelmän todettiin toimivan parhaiten sallimalla pieni vapaus rajoitukselle. Työssä toteutettiin avoimen lähdekoodin sovellus syöpägeenien etsimiseen riippuvuusmalleilla. Menetelmän toimivuutta verrattiin muihin ilmentymä- ja kopiolukumittausten riippuvuuksien tutkimiseen tarkoitettuihin menetelmiin. Rajoitettuihin riippuvuusmalleihin perustuvan menetelmän todettiin toimivan paljon paremmin syöpägeenien etsinnässä kuin muut verratut menetelmät. Tässä työssä toteutettu menetelmä on saatujen tulosten perusteella paras menetelmä syöpägeenien etsinnässä kopioluku- ja ilmentymämittauksilla.The development of cancer is associated with genetic abnormalities in genes which have a function in cell growth, division, or death. Mutations of these cancer associated genes cause changes in gene activity in cancer cells. Mutations and gene activities can be measured with microarrays. These copy number and expression measurements can be used locate cancer associated genes. This thesis studies the use of probabilistic canonical correlation analysis based dependency models for detecting cancer associated genes. In this method, the search is performed by examining associations between copy number and expression measurements with dependency models within each genes neighbourhood. These dependency models enable the useage of priori knowledge by constraining the examined dependency. Constraining can be applied to the search of cancer associated genes with the priori knowledge of location dependencies of copy number and expression changes. This was used to restrict the modelled dependencies to within genes measurements. This reduced the overfitting caused by small sample size. The restriction improved the method considerably. An optimum for the method was found when a small freedom was allowed from the restriction. The search of cancer associated genes with dependency models was implemented as an open source application. The effectiveness of the method was compared to other methods intended for the analyzation of dependencies between copy number and expression measurements. The method of using constrained dependency modelling was found to perform considerably better than any other compared method. The method implemented in this thesis is the best method for searching of cancer associated genes according to the results.Description
Supervisor
Kaski, SamuelThesis advisor
Lahti, LeoKeywords
canonical correlation analysis, dependency models, functional genomics, machine learning, bioinformatics, cancer research, kanoninen korrelaatioanalyysi, riippuvuusmallit, toiminnallinen genomiikka, koneoppiminen, bioinformatiikka, syöpätutkimus