Methods for exploring genomic data sets : application to human endogenous retroviruses

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.author Oja, Merja
dc.date.accessioned 2012-02-24T08:54:49Z
dc.date.available 2012-02-24T08:54:49Z
dc.date.issued 2007-12-14
dc.identifier.isbn 978-951-22-9062-8
dc.identifier.issn 1459-7020
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/2972
dc.description.abstract In this thesis exploratory data analysis methods have been developed for analyzing genomic data, in particular human endogenous retrovirus (HERV) sequences and gene expression data. HERVs are remains of ancient retrovirus infections and now reside within the human genome. Little is known about their functions. However, HERVs have been implicated in some diseases. This thesis provides methods for analyzing the properties and expression patterns of HERVs. Nowadays the genomic data sets are so large that sophisticated data analysis methods are needed in order to uncover interesting structures in the data. The purpose of exploratory methods is to help in generating hypotheses about the properties of the data. For example, by grouping together genes behaving similarly, and hence presumably having similar function, a new function can be suggested for previously uncharacterized genes. The hypotheses generated by exploratory data analysis can be verified later in more detailed studies. In contrast, a detailed analysis of all the genes of an organism would be too time consuming and expensive. In this thesis self-organizing map (SOM) based exploratory data analysis approaches for visualization and grouping of gene expression profiles and HERV sequences are presented. The SOM-based analysis is complemented with estimates on reliability of the SOM visualization display. New measures are developed for estimating the relative reliability of different parts of the visualization. Furthermore, methods for assessing the reliability of groups of samples manually extracted from a visualization display are introduced. Finally, a new computational method is developed for a specific problem in HERV biology. Activities of individual HERV sequences are estimated from a database of expressed sequence tags using a hidden Markov mixture model. The model is used to analyze the activity patterns of HERVs. en
dc.description.abstract Väitöskirjassa on kehitetty eksploratiivisia data-analyysimenetelmiä genomiaineistojen analysointiin, keskittyen erityisesti ihmisen endogeenisiin retrovirussekvensseihin ja geeniekspressioaineistoihin. Ihmisen endogeeniset retrovirukset (human endogenous retrovirus, HERV) ovat muinaisten retrovirusinfektioiden jäänteitä ja ovat nyt osa ihmisen genomia. HERV:eistä tiedetään kovin vähän, mutta niille on löytynyt yhteyksiä joihinkin sairauksiin. Tämä työ tarjoaa menetelmiä HERV:ien ominaisuuksien ja aktivoitumisen tutkimiseen. Nykyään genomiaineistot ovat niin suuria, että tarvitaan kehittyneitä data-analyysimenetelmiä datan mielenkiintoisten rakenteiden löytämiseksi. Eksploratiivisten menetelmien tehtävä on auttaa luomaan hypoteeseja datan ominaisuuksista. Esimerkiksi ryhmittelemällä geenit samoin käyttäytyvien, ja oletettavasti saman funktion omaavien, geenien ryhmiin voidaan ehdottaa funktio toiminnaltaan ennestään tuntemattomalle geenille. Eksploratiivisen data-analyysin avulla muodostetut hypoteesit voidaan myöhemmin varmistaa yksityiskohtaisempien kokeiden avulla. Sen sijaan yksityiskohtainen analyysi olisi liian hidasta ja kallista suorittaa kaikille geeneille. Työssä esitetään itseorganisoituvaan karttaan (self-organizing map, SOM) pohjautuvia eksploratiivisia data-analyysimenetelmiä geeniekspressioprofiilien ja ihmisen endogeenisten retrovirussekvenssien visualisointiin ja ryhmittelyyn. SOM-pohjaista lähestymistapaa täydennetään karttavisualisoinnin luotettavuutta arvioivin menetelmin. Uusia mittareita on kehitetty visualisoinnin eri osien suhteellisen luotettavuuden arviointiin. Lisäksi työssä on esitetty menetelmiä, joiden avulla voidaan arvioida käsin kartalta eroteltujen ryhmien luotettavuutta. Työssä on kehitetty uusi laskennallinen menetelmä tietyn HERV:ien biologiaan liittyvän ongelman ratkaisemiseksi. Yksittäisten HERV-sekvenssien aktiivisuustasot pystytään menetelmän avulla estimoimaan ekspressoituneita sekvenssejä listaavista tietokannoista. Uusi menetelmä pohjautuu piilo-Markov-sekoitemalleihin. Työssä sitä käytetään HERV:ien ekspressioprofiilien estimoimisessa ja analysoimisessa. fi
dc.format.extent 88, [78]
dc.format.mimetype application/pdf
dc.language.iso en en
dc.publisher Helsinki University of Technology en
dc.publisher Teknillinen korkeakoulu fi
dc.relation.ispartofseries Dissertations in computer and information science. Report D en
dc.relation.ispartofseries 23 en
dc.relation.haspart Merja Oja, Janne Nikkilä, Petri Törönen, Garry Wong, Eero Castrén, and Samuel Kaski. Exploratory clustering of gene expression profiles of mutated yeast strains. In Wei Zhang and Ilya Shmulevich, editors, Computational and Statistical Approaches to Genomics, pages 65-78. Kluwer, Boston, MA, 2002.
dc.relation.haspart Samuel Kaski, Janne Nikkilä, Merja Oja, Jarkko Venna, Petri Törönen, and Eero Castrén. Trustworthiness and metrics in visualizing similarity of gene expression. BMC Bioinformatics, 4: 48, 2003. [article2.pdf] © 2003 by authors.
dc.relation.haspart Merja Oja, Panu Somervuo, Samuel Kaski, and Teuvo Kohonen. Clustering of human endogenous retrovirus sequences with median self-organizing map. In Proceedings of the 4th Workshop on Self-Organizing Maps (WSOM 2003), 11-14 September 2003, Hibikino, Japan, on CD-ROM. [article3.pdf] © 2003 WSOM'03 Organizing Committee. By permission.
dc.relation.haspart Merja Oja, Göran Sperber, Jonas Blomberg, and Samuel Kaski. Grouping and visualizing human endogenous retroviruses by bootstrapping median self-organizing maps. In Proceedings of the 2004 IEEE Symposium on Computational Intelligence in Bioinformatics and Computational Biology (CIBCB 2004), 7-8 October 2004, San Diego, USA, pages 95-101. [article4.pdf] © 2004 IEEE. By permission.
dc.relation.haspart Merja Oja, Göran O. Sperber, Jonas Blomberg, and Samuel Kaski. Self-organizing map-based discovery and visualization of human endogenous retroviral sequence groups. International Journal of Neural Systems, 15 (3): 163-179, 2005. [article5.pdf] © 2005 by authors and © 2005 World Scientific Publishing Company. By permission.
dc.relation.haspart Merja Oja, Jaakko Peltonen, Jonas Blomberg, and Samuel Kaski. Methods for estimating human endogenous retrovirus activities from EST databases. BMC Bioinformatics, 8 (Suppl. 2): S11, 2007. [article6.pdf] © 2007 by authors.
dc.relation.haspart Merja Oja. In silico expression profiles of human endogenous retroviruses. In Proceedings of the Second IAPR International Workshop on Pattern Recognition in Bioinformatics (PRIB 2007), 1-2 October 2007, Singapore, Lecture Notes in Bioinformatics, volume 4774, pages 253-263, 2007. [article7.pdf] © 2007 by author and © 2007 Springer Science+Business Media. By permission.
dc.subject.other Computer science en
dc.subject.other Biotechnology en
dc.title Methods for exploring genomic data sets : application to human endogenous retroviruses en
dc.title Eksploratiivisia menetelmiä genomitiedon analysointiin – sovelluskohteena ihmisen endogeeniset retrovirukset fi
dc.type G5 Artikkeliväitöskirja fi
dc.description.version reviewed en
dc.contributor.department Department of Computer Science and Engineering en
dc.contributor.department Tietotekniikan osasto fi
dc.subject.keyword bioinformatics en
dc.subject.keyword exploratory data analysis en
dc.subject.keyword gene expression en
dc.subject.keyword hidden Markov model en
dc.subject.keyword human endogenous retrovirus en
dc.subject.keyword information visualization en
dc.subject.keyword learning metrics en
dc.subject.keyword reliability en
dc.subject.keyword self-organizing map en
dc.subject.keyword bioinformatiikka fi
dc.subject.keyword eksploratiivinen data-analyysi fi
dc.subject.keyword geeniekspressio fi
dc.subject.keyword ihmisen endogeeninen retrovirus fi
dc.subject.keyword informaation visualisointi fi
dc.subject.keyword itseorganisoituva kartta fi
dc.subject.keyword luotettavuus fi
dc.subject.keyword oppiva metriikka fi
dc.subject.keyword piilo-Markov-malli fi
dc.identifier.urn urn:nbn:fi:tkk-011009
dc.type.dcmitype text en
dc.type.ontasot Väitöskirja (artikkeli) fi
dc.type.ontasot Doctoral dissertation (article-based) en
dc.contributor.lab Laboratory of Computer and Information Science en
dc.contributor.lab Informaatiotekniikan laboratorio fi


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

My Account