Stochastic Segment Model for Human Promoter Prediction

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorKhuri, Sami
dc.contributor.authorRipatti, Tommi
dc.contributor.departmentTietotekniikan osastofi
dc.contributor.schoolTeknillinen korkeakoulufi
dc.contributor.schoolHelsinki University of Technologyen
dc.contributor.supervisorTarhio, Jorma
dc.date.accessioned2020-12-05T09:57:51Z
dc.date.available2020-12-05T09:57:51Z
dc.date.issued2006
dc.description.abstractTämä työ kuuluu bioinformatiikan tutkimusalaan, jossa käytetään laskennallisia menetelmiä molekyylibiologian apuvälineenä. Geenien säätelyalueiden sijainnin ja rakenteen kartoittamisella on tärkeä rooli geenien toiminnan selvittämisessä. Tunnistamattomien geeniedistäjien laskennallista ennustamista pidetään haastavana, mutta onnistuessaan sillä olisi selviä etuja molekyylibiologialle. Puheentunnistustutkimuksen tarpeisiin kehitetyt tilastolliset aikasarja-analyysi- ja luokittelumallit ovat nykyään laajassa käytössä eri bioinformatiikan sovelluksissa. Tässä työssä tutkitaan stokastista pala mallia. Tämä malli lisää piilo Markovin malliin vapaasti määriteltävän, tilakohtaisen, pituusjakauman. Tämä ominaisuus on eduksi suuresti vaihtelevien sekvenssikuvioiden ennustamisessa. Työn tarkoituksena oli toteuttaa ja arvioida monitasoinen sisältöherkkä luokittelujärjestelmä, jonka avulla olisi mahdollista tunnistaa edistäjiä muiden DNA sekvenssilajien lomasta. Malli laskee tavanomaisilla Markovin ketjuilla taustasekvenssien todennäköisyyden ja palamallilla edistäjien todennäköisyyden. Luokittelijan parametrit estimoitiin viisinkertaisella ristiinvalidoinnilla. Vaikka ristiinvalidointivirhe oli suhteellisen pieni, oli järjestelmän tarkkuus ennustettaessa pitkiä genomisia sekvenssejä huono. Koska käytetyt tausta- ja alimallit ovat herkkiä ylisovittumiselle, on todennäköisesti mallin parametrit ylisovittuivat mallin opettamiseen käytettyihin sekvensseihin.fi
dc.format.extent(13) + 75
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/93816
dc.identifier.urnURN:NBN:fi:aalto-2020120552651
dc.language.isoenen
dc.programme.majorOhjelmistotekniikkafi
dc.programme.mcodeT-106fi
dc.rights.accesslevelclosedAccess
dc.subject.keywordhidden Markov modelsen
dc.subject.keywordpiilo Markovin mallitfi
dc.subject.keywordmachine learningen
dc.subject.keywordkoneoppiminenfi
dc.subject.keyworddiscrete sequence classificationen
dc.subject.keywordstokastiset mallitfi
dc.subject.keywordpromoter predictionen
dc.subject.keyworddiskreettien sekvenssien luokittelufi
dc.subject.keywordgene regulation motifsen
dc.subject.keywordedistäjien ennustaminenfi
dc.subject.keywordgeenien sääntely osatfi
dc.titleStochastic Segment Model for Human Promoter Predictionen
dc.titleStokastinen palamalli ihmisgeenien edistäjien tunnistamiseksifi
dc.type.okmG2 Pro gradu, diplomityö
dc.type.ontasotMaster's thesisen
dc.type.ontasotPro gradu -tutkielmafi
dc.type.publicationmasterThesis
local.aalto.digiauthask
local.aalto.digifolderAalto_11861
local.aalto.idinssi32186
local.aalto.openaccessno

Files