A Parallel Forward Selection Wrapper for Genome Wide Association Studies

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2016-08-24
Department
Major/Subject
Tietojenkäsittelytiede
Mcode
IL3010
Degree programme
Tietotekniikan koulutusohjelma
Language
en
Pages
68
Series
Abstract
Genome wide association studies attempt to explain variations in the observed traits of organisms in terms of variations in their DNA. Many complex human diseases are believed to be associated with interactions of these single point variations within the genome. Moreso, recent research suggests that many diseases are likely to be caused by rare mutations. This demands the scanning of the entire genome as opposed to the continued scrutiny of its commonly assayed regions. With the declining cost of whole genome sequencing, the amount of high dimensional data available to genome wide association studies can be expected to rise rapidly. At the same time, many formerly used analysis techniques are starting to show signs of weakness and new, more powerful algorithmic solutions are needed to analyze these larger data sets. Feature selection techniques constitute a methodology that, when applied, can alleviate the computational burden faced by the analysis tools. More importantly, they can help discover the genetic markers that are most strongly associated with a phenotype and help direct future research effort to the further study of those particular factors. This thesis presents a novel feature selection technique that scales well to high dimensional feature spaces. The method is a forward selection type wrapper that operates search paths in parallel and involves a heuristic to reduce the computational load of searching for the optimal feature subset. The results suggest that the proposed method is better than the tested alternative standard feature selection techniques in the analysis of genetic variants and data with small concentrations of relevant features. Furthermore, using a linear regression model and the novel speedup heuristic, the parallelizable feature selection method scales to the genome wide scale given appropriate computational resources.

Genominlaajuinen assosiaatioanalyysi tutkii eliöiden genomissa esiintyvien pistemutaatioiden ja havaittavien piirteiden välistä yhteyttä. Näiden yhden emäsparin pistemutaatioiden sekä niiden vuorovaikutusten uskotaan olevan yhteydessä useisiin sairauksiin. Nykytutkimus osoittaa lisäksi useiden sairauksien olevan pikemminkin harvinaisten kuin tavanomaisesti tutkittujen yleisten mutaatioiden aiheuttamia, mikä edellyttää laajempaa analyysiä myös genomin vähemmän tutkituilla alueilla. Genominlaajuisen sekvensoinnin yleistyessä korkeadimensioisen geneettisen datan tarjonnan voidaan olettaa kasvavan räjähdysmäisesti, mikä puolestaan edellyttää uusien tehokkaiden analyysimenetelmien kehittämistä. Nykyiset laajalti käytetyt menetelemät ovat nimittäin yleisesti liian tehottomia koko genomin laajuisen analyysin suorittamiseksi. Piirrevalintamenetelmät auttavat keventämään analyysityökalujen laskentataakkaa karsimalla epäolennaiset muuttujat datasta. Lisäksi ne johtavat merkittävien muuttujien löytymiseen ja mahdollistavat kansainvälisten tutkimusresurssien ohjaamisen niiden tarkempaan jatkotutkimukseen. Tämä työ esittelee uuden kääretyyppisen piirrevalintamenetelmän, joka skaalautuu hyvin korkeadimensioisen datan käsittelyyn. Esitetty menetelmä on eteenpäin suuntautuva, piirteitä iteratiivisesti osajoukkoon lisäävä kääre, joka mahdollistaa useamman etsintäpolun ja hyödyntää laskentataakkaa keventävää heuristista ratkaisua. Työn tulokset viittaavat siihen, että tämä uusi menetelmä on sen kanssa vertailtuja tunnettuja menetelmiä parempi korkeadimensioisen ja erityisesti suuria merkityksettömien muuttujien pitoisuuksia sisältävän datan käsittelyssä. Nopeutusheuristiikkaa hyödyntäessään tämä rinnakkaistettava menetelmä skaalautuu myös genomin laajuiseen tutkimukseen.
Description
Supervisor
Lähdesmäki, Harri
Thesis advisor
Cheng, Lu
Keywords
parallel, feature, selection, wrapper, SNP, GWAS
Other note
Citation