Genomic data staging for parallel analysis

No Thumbnail Available
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2014-06-02
Department
Major/Subject
Ohjelmistotekniikka
Mcode
T3001
Degree programme
Tietotekniikan koulutusohjelma
Language
en
Pages
86
Series
Abstract
This Master's Thesis describes a solution for storing large genomic data in a scalable, robust and secure way. There are various constraints for the design, because the new solution is intended to replace an existing storage system that is already in production use by Biocomputing Platforms Ltd. The primary demand for this solution arises from the growing size of data produced by genotyping devices and processes, and the growing practice of combining large genomic data sets for analysis. In addition to scalability, security requirements and expectations are also tightening. A new distributed storage system was designed to provide fast and location-transparent access to various storage back-ends, including some popular cloud storage services. The solution scales up to hundreds of terabytes with conventional hardware, and much further when used in conjunction with other scalable storage systems. Finally, other ways are presented for improving the design to reach petascale with conventional or virtualised hardware.

Tämä Diplomityö esittelee ratkaisun suurten genomisten tietomäärien skaalautuvaan, luotettavaan ja turvalliseen tallentamiseen. Suunniteltavan järjestelmän on tarkoitus korvata Biocomputing Platforms Oy:n tuotteissa käytössä oleva tallennusjärjestelmä, mikä asettaa työlle useita vaatimuksia. Suurin tarve uudelle ratkaisulle aiheutuu genotyypityslaitteiden tuottaman tietomäärän kasvusta sekä yleistyvästä käytännöstä yhdistellä suuria eri lähteistä saatuja aineistoja. Skaalautuvuuden lisäksi myös tietoturvallisuusvaatimukset ovat tiukentumassa. Työssä suunniteltiin uusi hajautettu tiedontallennusjärjestelmä, joka tarjoaa nopean ja sijaintiriippumattoman pääsyn monenlaisiin tiedonvarastoinnin taustajärjestelmiin, mukaanlukien joihinkin suosittuihin pilvitallennuspalveluihin. Ratkaisu skaalautuu satoihin teratavuihin perinteisellä laitteistolla ja huomattavasti suurempaan tietomäärään joihinkin ulkoisiin tallennusjärjestelmiin yhdistettynä. Lopuksi esitellään tapoja parantaa suunnitelmaa petatavujen kokoisen tiedon tallentamiseen ilman ulkoisia järjestelmiä.
Description
Supervisor
Heljanko, Keijo
Thesis advisor
Sevon, Petteri
Keywords
Distributed storage, distributed analysis, data staging, genomics, big data, Hajautettu tallennus, tiedon välivarastointi, genomiikka, massadata
Other note
Citation