Learning Centre

Genomic data staging for parallel analysis

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.advisor Sevon, Petteri
dc.contributor.author Honkanen, Rami
dc.date.accessioned 2014-06-25T08:26:42Z
dc.date.available 2014-06-25T08:26:42Z
dc.date.issued 2014-06-02
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/13459
dc.description.abstract This Master's Thesis describes a solution for storing large genomic data in a scalable, robust and secure way. There are various constraints for the design, because the new solution is intended to replace an existing storage system that is already in production use by Biocomputing Platforms Ltd. The primary demand for this solution arises from the growing size of data produced by genotyping devices and processes, and the growing practice of combining large genomic data sets for analysis. In addition to scalability, security requirements and expectations are also tightening. A new distributed storage system was designed to provide fast and location-transparent access to various storage back-ends, including some popular cloud storage services. The solution scales up to hundreds of terabytes with conventional hardware, and much further when used in conjunction with other scalable storage systems. Finally, other ways are presented for improving the design to reach petascale with conventional or virtualised hardware. en
dc.description.abstract Tämä Diplomityö esittelee ratkaisun suurten genomisten tietomäärien skaalautuvaan, luotettavaan ja turvalliseen tallentamiseen. Suunniteltavan järjestelmän on tarkoitus korvata Biocomputing Platforms Oy:n tuotteissa käytössä oleva tallennusjärjestelmä, mikä asettaa työlle useita vaatimuksia. Suurin tarve uudelle ratkaisulle aiheutuu genotyypityslaitteiden tuottaman tietomäärän kasvusta sekä yleistyvästä käytännöstä yhdistellä suuria eri lähteistä saatuja aineistoja. Skaalautuvuuden lisäksi myös tietoturvallisuusvaatimukset ovat tiukentumassa. Työssä suunniteltiin uusi hajautettu tiedontallennusjärjestelmä, joka tarjoaa nopean ja sijaintiriippumattoman pääsyn monenlaisiin tiedonvarastoinnin taustajärjestelmiin, mukaanlukien joihinkin suosittuihin pilvitallennuspalveluihin. Ratkaisu skaalautuu satoihin teratavuihin perinteisellä laitteistolla ja huomattavasti suurempaan tietomäärään joihinkin ulkoisiin tallennusjärjestelmiin yhdistettynä. Lopuksi esitellään tapoja parantaa suunnitelmaa petatavujen kokoisen tiedon tallentamiseen ilman ulkoisia järjestelmiä. fi
dc.format.extent 86
dc.language.iso en en
dc.title Genomic data staging for parallel analysis en
dc.title Genomisen tiedon välivarastointi rinnakkaista käsittelyä varten fi
dc.type G2 Pro gradu, diplomityö en
dc.contributor.school Perustieteiden korkeakoulu fi
dc.subject.keyword Distributed storage en
dc.subject.keyword distributed analysis en
dc.subject.keyword data staging en
dc.subject.keyword genomics en
dc.subject.keyword big data en
dc.subject.keyword Hajautettu tallennus fi
dc.subject.keyword tiedon välivarastointi fi
dc.subject.keyword genomiikka fi
dc.subject.keyword massadata fi
dc.identifier.urn URN:NBN:fi:aalto-201406252191
dc.programme.major Ohjelmistotekniikka fi
dc.programme.mcode T3001 fi
dc.type.ontasot Master's thesis en
dc.type.ontasot Diplomityö fi
dc.contributor.supervisor Heljanko, Keijo
dc.programme Tietotekniikan koulutusohjelma fi
local.aalto.openaccess no
local.aalto.digifolder Aalto_92276
dc.rights.accesslevel closedAccess
local.aalto.idinssi 49408
dc.type.publication masterThesis
dc.type.okm G2 Pro gradu, diplomityö


Files in this item

Files Size Format View

There are no open access files associated with this item.

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse