A Parallel Forward Selection Wrapper for Genome Wide Association Studies

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.advisor Cheng, Lu
dc.contributor.author Kari, Miko
dc.date.accessioned 2016-08-26T09:00:10Z
dc.date.available 2016-08-26T09:00:10Z
dc.date.issued 2016-08-24
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/21561
dc.description.abstract Genome wide association studies attempt to explain variations in the observed traits of organisms in terms of variations in their DNA. Many complex human diseases are believed to be associated with interactions of these single point variations within the genome. Moreso, recent research suggests that many diseases are likely to be caused by rare mutations. This demands the scanning of the entire genome as opposed to the continued scrutiny of its commonly assayed regions. With the declining cost of whole genome sequencing, the amount of high dimensional data available to genome wide association studies can be expected to rise rapidly. At the same time, many formerly used analysis techniques are starting to show signs of weakness and new, more powerful algorithmic solutions are needed to analyze these larger data sets. Feature selection techniques constitute a methodology that, when applied, can alleviate the computational burden faced by the analysis tools. More importantly, they can help discover the genetic markers that are most strongly associated with a phenotype and help direct future research effort to the further study of those particular factors. This thesis presents a novel feature selection technique that scales well to high dimensional feature spaces. The method is a forward selection type wrapper that operates search paths in parallel and involves a heuristic to reduce the computational load of searching for the optimal feature subset. The results suggest that the proposed method is better than the tested alternative standard feature selection techniques in the analysis of genetic variants and data with small concentrations of relevant features. Furthermore, using a linear regression model and the novel speedup heuristic, the parallelizable feature selection method scales to the genome wide scale given appropriate computational resources. en
dc.description.abstract Genominlaajuinen assosiaatioanalyysi tutkii eliöiden genomissa esiintyvien pistemutaatioiden ja havaittavien piirteiden välistä yhteyttä. Näiden yhden emäsparin pistemutaatioiden sekä niiden vuorovaikutusten uskotaan olevan yhteydessä useisiin sairauksiin. Nykytutkimus osoittaa lisäksi useiden sairauksien olevan pikemminkin harvinaisten kuin tavanomaisesti tutkittujen yleisten mutaatioiden aiheuttamia, mikä edellyttää laajempaa analyysiä myös genomin vähemmän tutkituilla alueilla. Genominlaajuisen sekvensoinnin yleistyessä korkeadimensioisen geneettisen datan tarjonnan voidaan olettaa kasvavan räjähdysmäisesti, mikä puolestaan edellyttää uusien tehokkaiden analyysimenetelmien kehittämistä. Nykyiset laajalti käytetyt menetelemät ovat nimittäin yleisesti liian tehottomia koko genomin laajuisen analyysin suorittamiseksi. Piirrevalintamenetelmät auttavat keventämään analyysityökalujen laskentataakkaa karsimalla epäolennaiset muuttujat datasta. Lisäksi ne johtavat merkittävien muuttujien löytymiseen ja mahdollistavat kansainvälisten tutkimusresurssien ohjaamisen niiden tarkempaan jatkotutkimukseen. Tämä työ esittelee uuden kääretyyppisen piirrevalintamenetelmän, joka skaalautuu hyvin korkeadimensioisen datan käsittelyyn. Esitetty menetelmä on eteenpäin suuntautuva, piirteitä iteratiivisesti osajoukkoon lisäävä kääre, joka mahdollistaa useamman etsintäpolun ja hyödyntää laskentataakkaa keventävää heuristista ratkaisua. Työn tulokset viittaavat siihen, että tämä uusi menetelmä on sen kanssa vertailtuja tunnettuja menetelmiä parempi korkeadimensioisen ja erityisesti suuria merkityksettömien muuttujien pitoisuuksia sisältävän datan käsittelyssä. Nopeutusheuristiikkaa hyödyntäessään tämä rinnakkaistettava menetelmä skaalautuu myös genomin laajuiseen tutkimukseen. fi
dc.format.extent 68
dc.format.mimetype application/pdf en
dc.language.iso en en
dc.title A Parallel Forward Selection Wrapper for Genome Wide Association Studies en
dc.title Monipolkuinen eteenpäin suuntautuva piirrevalintakääre genominlaajuiselle assosiaatioanalyysille fi
dc.type G2 Pro gradu, diplomityö fi
dc.contributor.school Perustieteiden korkeakoulu fi
dc.subject.keyword parallel en
dc.subject.keyword feature en
dc.subject.keyword selection en
dc.subject.keyword wrapper en
dc.subject.keyword SNP en
dc.subject.keyword GWAS en
dc.identifier.urn URN:NBN:fi:aalto-201608263020
dc.programme.major Tietojenkäsittelytiede fi
dc.programme.mcode IL3010 fi
dc.type.ontasot Master's thesis en
dc.type.ontasot Diplomityö fi
dc.contributor.supervisor Lähdesmäki, Harri
dc.programme Tietotekniikan koulutusohjelma fi


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

My Account