Geeniekspressio tarkoittaa prosessia, jossa geenit säätelevät organismin biologisia toimintoja proteiinituotannon kautta.
Geenisirutekniikka mahdollistaa kymmenien tuhansien geenien ekspression samanaikaisen arvioinnin.
Useita siruja käyttämällä ekspressiomittauksia voidaan tehdä eri olosuhteissa ja aikapisteissä.
Tässä diplomityössä analysoidaan geeniekspressiodatajoukkoa.
Data on peräisin kokeista, joissa tutkittiin asbestin vaikutusta kolmea erilaista solutyyppiä edustaviin näytteisiin.
Ensin datan laatu tarkistetaan eri tavoin.
Työ jatkuu esikäsittely- ja analyysimenetelmien kuvauksilla.
Esikäsittelyn tarkoituksena on muun muassa vähentää datassa olevaa biologisista syistä riippumatonta vaihtelua ja mahdollistaa eri siruista peräisin olevien mittausten keskinäinen vertailu.
Tässä työssä käytetään RMA-esikäsittelymenetelmää, joka koostuu seuraavista vaiheista: taustakorjaus, normalisointi, logaritminen muunnos ja yhteenveto.
Esikäsitellyistä ekspressioarvoista muodostetaan aikasarjoja, jotka kuvaavat asbestikäsiteltyjen ja normaalien näytteiden välisiä muutoksia.
Aikasarjojen analysointiin käytetään tuoretta klusterointimenetelmää, joka on suunniteltu lyhyille aikasarjoille ja sisältää klusterien tilastollisen merkitsevyyden arvioinnin.
Menetelmä käydään läpi algoritmitasolla, ja siihen esitetään yksi korjaus sekä ylimääräinen välivaihe.
Klusteroinnin tulosten analysoinnissa käytetään hyväksi geeneistä saatavilla olevaa tietoa.
Esimerkiksi on kiinnostavaa, jos jossain klusterissa on huomattavan paljon saman biologisen toiminnon toteuttavia geenejä.
Myös tunnettujen asbestiin liittyvien geenien klusteroitumista tutkitaan.
Klusterointialgoritmin toteutuksen toiminta testataan toistamalla synteettisellä datalla tehty koe.
Lopussa esitetään joukko asbestidataan liittyviä tuloksia.
Varsinaisten päätelmien tekeminen jätetään biologeille.