Data compression for hydrodynamic and magnetohydrodynamic simulation data

Loading...
Thumbnail Image

Files

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.

Department

Major/Subject

Mcode

Language

en

Pages

37

Series

Abstract

Due to the increasing computational power in high-performance computing, the extent and fidelity of hydrodynamic (HD) and magnetohydrodynamic (MHD) simulations has also increased. This has resulted in greater demands on data storage and handling. HD studies the motion of fluids and MHD includes the mutual interaction between conducting fluids and magnetic fields. MHD simulations are particularly important in astrophysics, controlled nuclear fusion, and planetary magnetism. Data compression for such simulations can be applied in two key areas: (1) the storage of final and intermediate results, the former for postprocessing and archiving, the latter as restart checkpoints, to safeguard against simulation failures, and (2) the transfer of data between parallel processes for stencil computations during the simulation. Compression methods can be divided into lossless and lossy methods. In lossless compression, the original data can be reconstructed exactly from the compressed data. Contrarily, data compressed with lossy methods cannot be fully reconstructed, as errors are introduced by approximations. Due to the requirement of safe restartability of a simulation from a checkpoint, lossless methods have been more prevalent in this application case. This thesis provides an overview of seven lossless and three lossy compression algorithms for HD and MHD simulations through a literature review and a short experiment on a subset of compressors. The algorithms are considered in terms of simulation requirements, that is, compression ratio and throughput. In addition, the viability of lossy compression in view of simulation restarts is briefly examined as well as the use of compression in parallel communications. Current compression algorithms produce noticeable results in terms of compression ratio and data throughput. For lossless compression algorithms, the compression ratio on HD and MHD data is in most cases below two. However, with lossy compression algorithms, higher compression ratios can be achieved based on the selected error bound. In addition, it shows viability on multiple restarts but its effects on the accuracy of the results should be assessed on a per-simulation basis. MPI compression shows improvements on some system architectures and data but requires high compressibility for viability. Therefore, its use in HD and MHD simulations may be limited.

Laskennallisessa fysiikassa simulaatioiden käyttöön tarkoitetut tietokoneet ovat kehittyneet huomattavasti, ja niiden laskentateho on kasvanut merkittävästi viime vuosina. Tämä on mahdollistanut entistä laajempien ja tarkempien simulaatioiden toteuttamisen, mikä on puolestaan lisännyt tiedonsäilytys- ja tiedonkäsittelyvaatimuksia. Näiden vaatimusten vähentämiseksi on ehdotettu tiedonpakkausta, eli datan koon tiivistämistä tehokkaampaan muotoon. Tiedonpakkausta simulaatioihin voidaan soveltaa kahdessa ulottuvuudessa, loppu- ja väliaikaistulosten säilyttämisessä ja rinnakkaisprosessien tiedonvälityksissä. Väliaikaistuloksilla eli uudelleenkäynnistyksen tallennuspisteillä (engl. restart checkpoint) voidaan varmistaa simulaation jatkaminen, jos simulaatio epäonnistuu. Lopputulokset voidaan arkistoida jälkianalysointia varten. Tiedonpakkausmenetelmät voidaan jakaa häviöttömiin ja häviöllisiin menetelmiin. Tämä työ antaa yleiskuvan kahdeksaan häviöttömään ja neljään häviölliseen tiedonpakkausalgoritmiin kirjallisuuskatsauksen avulla. Häviöttömissä menetelmissä alkuperäinen data voidaan rekonstruoida täsmällisesti pakatusta datasta. Sen sijaan häviöllisillä menetelmillä pakattua dataa ei voida rekonstruktoida täsmälleen alkuperäiseen muotoonsa, koska pakkausprosessissa osa informaatiosta korvataan arvioilla tai yksinkertaistuksilla, jotka johtavat tiedon pysyvään menetykseen. Häviöttömät menetelmät ovat yleisempiä simulaatioissa tarkkuusvaatimusten vuoksi. Työ on rajattu hydrodynaamisiin (HD) ja magnetohydrodynaamisiin (MHD) simulaatioihin ja käsitellyt algoritmit on valittu niiden vaatimusten näkökulmasta eli pakkaussuhteen, suoritustehon ja datan tietotyypin mukaan. HD tutkii nesteiden liikettä ja MHD sähköä johtavien nesteiden ja magneettikenttien yhtenäistä vuorovaikutusta. MHD-simulaatiot ovat tärkeitä erityisesti astrofysiikassa, hallitussa fuusioreaktiossa, ja planetaarisessa magnetismissa. Lisäksi työssä tarkastellaan lyhyesti häviöllisen tiedonpakkauksen käyttökelpoisuutta uudelleenkäynnistysten tallennuspisteissä, tiedonpakkauksen käyttöä rinnakkaisprosessien tiedonvälityksissä (engl. parallel communication) ja valittuja pakkausalgoritmeja kokeellisesti. Kirjallisuuskatsauksen perusteella pakkaussuhde nykyisillä tiedonpakkausalgoritmeilla huonosti pakkautuvalle simulaatiodatalle on alle kaksi häviöttömillä pakkausalgoritmeilla. Häviölliset algoritmit tuottavat korkeampia pakkaussuhteita häviöttömiin verrattuna, mutta ne ovat riippuvaisia simulaation virhesietoisuudesta, minkä vuoksi simulaatiokohtainen analyysi on tarpeellinen. Niiden käyttö lyhyissä simulaatioissa ja korkealla tarkkuusasetuksella vaikuttaa mahdolliselta. Tiedonpakkaus rinnakkaisprosessien tiedonvälityksissä näyttää viiveen lyhenemistä joillain järjestelmäarkkitehtuureilla ja datalla, mutta HD- ja MHD-simulaatiodatan matala pakkaussuhde rajoittaa sen käyttöä.

Description

Supervisor

Korpi-Lagg, Maarit

Thesis advisor

Rheinhardt, Matthias

Other note

Citation