Methods for exploring genomic data sets : application to human endogenous retroviruses
No Thumbnail Available
URL
Journal Title
Journal ISSN
Volume Title
Doctoral thesis (article-based)
Checking the digitized thesis and permission for publishing
Instructions for the author
Instructions for the author
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2007-12-14
Major/Subject
Mcode
Degree programme
Language
en
Pages
88, [78]
Series
Dissertations in computer and information science. Report D, 23
Abstract
In this thesis exploratory data analysis methods have been developed for analyzing genomic data, in particular human endogenous retrovirus (HERV) sequences and gene expression data. HERVs are remains of ancient retrovirus infections and now reside within the human genome. Little is known about their functions. However, HERVs have been implicated in some diseases. This thesis provides methods for analyzing the properties and expression patterns of HERVs. Nowadays the genomic data sets are so large that sophisticated data analysis methods are needed in order to uncover interesting structures in the data. The purpose of exploratory methods is to help in generating hypotheses about the properties of the data. For example, by grouping together genes behaving similarly, and hence presumably having similar function, a new function can be suggested for previously uncharacterized genes. The hypotheses generated by exploratory data analysis can be verified later in more detailed studies. In contrast, a detailed analysis of all the genes of an organism would be too time consuming and expensive. In this thesis self-organizing map (SOM) based exploratory data analysis approaches for visualization and grouping of gene expression profiles and HERV sequences are presented. The SOM-based analysis is complemented with estimates on reliability of the SOM visualization display. New measures are developed for estimating the relative reliability of different parts of the visualization. Furthermore, methods for assessing the reliability of groups of samples manually extracted from a visualization display are introduced. Finally, a new computational method is developed for a specific problem in HERV biology. Activities of individual HERV sequences are estimated from a database of expressed sequence tags using a hidden Markov mixture model. The model is used to analyze the activity patterns of HERVs.Väitöskirjassa on kehitetty eksploratiivisia data-analyysimenetelmiä genomiaineistojen analysointiin, keskittyen erityisesti ihmisen endogeenisiin retrovirussekvensseihin ja geeniekspressioaineistoihin. Ihmisen endogeeniset retrovirukset (human endogenous retrovirus, HERV) ovat muinaisten retrovirusinfektioiden jäänteitä ja ovat nyt osa ihmisen genomia. HERV:eistä tiedetään kovin vähän, mutta niille on löytynyt yhteyksiä joihinkin sairauksiin. Tämä työ tarjoaa menetelmiä HERV:ien ominaisuuksien ja aktivoitumisen tutkimiseen. Nykyään genomiaineistot ovat niin suuria, että tarvitaan kehittyneitä data-analyysimenetelmiä datan mielenkiintoisten rakenteiden löytämiseksi. Eksploratiivisten menetelmien tehtävä on auttaa luomaan hypoteeseja datan ominaisuuksista. Esimerkiksi ryhmittelemällä geenit samoin käyttäytyvien, ja oletettavasti saman funktion omaavien, geenien ryhmiin voidaan ehdottaa funktio toiminnaltaan ennestään tuntemattomalle geenille. Eksploratiivisen data-analyysin avulla muodostetut hypoteesit voidaan myöhemmin varmistaa yksityiskohtaisempien kokeiden avulla. Sen sijaan yksityiskohtainen analyysi olisi liian hidasta ja kallista suorittaa kaikille geeneille. Työssä esitetään itseorganisoituvaan karttaan (self-organizing map, SOM) pohjautuvia eksploratiivisia data-analyysimenetelmiä geeniekspressioprofiilien ja ihmisen endogeenisten retrovirussekvenssien visualisointiin ja ryhmittelyyn. SOM-pohjaista lähestymistapaa täydennetään karttavisualisoinnin luotettavuutta arvioivin menetelmin. Uusia mittareita on kehitetty visualisoinnin eri osien suhteellisen luotettavuuden arviointiin. Lisäksi työssä on esitetty menetelmiä, joiden avulla voidaan arvioida käsin kartalta eroteltujen ryhmien luotettavuutta. Työssä on kehitetty uusi laskennallinen menetelmä tietyn HERV:ien biologiaan liittyvän ongelman ratkaisemiseksi. Yksittäisten HERV-sekvenssien aktiivisuustasot pystytään menetelmän avulla estimoimaan ekspressoituneita sekvenssejä listaavista tietokannoista. Uusi menetelmä pohjautuu piilo-Markov-sekoitemalleihin. Työssä sitä käytetään HERV:ien ekspressioprofiilien estimoimisessa ja analysoimisessa.Description
Keywords
bioinformatics, exploratory data analysis, gene expression, hidden Markov model, human endogenous retrovirus, information visualization, learning metrics, reliability, self-organizing map, bioinformatiikka, eksploratiivinen data-analyysi, geeniekspressio, ihmisen endogeeninen retrovirus, informaation visualisointi, itseorganisoituva kartta, luotettavuus, oppiva metriikka, piilo-Markov-malli
Other note
Parts
- Merja Oja, Janne Nikkilä, Petri Törönen, Garry Wong, Eero Castrén, and Samuel Kaski. Exploratory clustering of gene expression profiles of mutated yeast strains. In Wei Zhang and Ilya Shmulevich, editors, Computational and Statistical Approaches to Genomics, pages 65-78. Kluwer, Boston, MA, 2002.
- Samuel Kaski, Janne Nikkilä, Merja Oja, Jarkko Venna, Petri Törönen, and Eero Castrén. Trustworthiness and metrics in visualizing similarity of gene expression. BMC Bioinformatics, 4: 48, 2003. [article2.pdf] © 2003 by authors.
- Merja Oja, Panu Somervuo, Samuel Kaski, and Teuvo Kohonen. Clustering of human endogenous retrovirus sequences with median self-organizing map. In Proceedings of the 4th Workshop on Self-Organizing Maps (WSOM 2003), 11-14 September 2003, Hibikino, Japan, on CD-ROM. [article3.pdf] © 2003 WSOM'03 Organizing Committee. By permission.
- Merja Oja, Göran Sperber, Jonas Blomberg, and Samuel Kaski. Grouping and visualizing human endogenous retroviruses by bootstrapping median self-organizing maps. In Proceedings of the 2004 IEEE Symposium on Computational Intelligence in Bioinformatics and Computational Biology (CIBCB 2004), 7-8 October 2004, San Diego, USA, pages 95-101. [article4.pdf] © 2004 IEEE. By permission.
- Merja Oja, Göran O. Sperber, Jonas Blomberg, and Samuel Kaski. Self-organizing map-based discovery and visualization of human endogenous retroviral sequence groups. International Journal of Neural Systems, 15 (3): 163-179, 2005. [article5.pdf] © 2005 by authors and © 2005 World Scientific Publishing Company. By permission.
- Merja Oja, Jaakko Peltonen, Jonas Blomberg, and Samuel Kaski. Methods for estimating human endogenous retrovirus activities from EST databases. BMC Bioinformatics, 8 (Suppl. 2): S11, 2007. [article6.pdf] © 2007 by authors.
- Merja Oja. In silico expression profiles of human endogenous retroviruses. In Proceedings of the Second IAPR International Workshop on Pattern Recognition in Bioinformatics (PRIB 2007), 1-2 October 2007, Singapore, Lecture Notes in Bioinformatics, volume 4774, pages 253-263, 2007. [article7.pdf] © 2007 by author and © 2007 Springer Science+Business Media. By permission.