Title: | Monitoring parallel file system usage in a high-performance computer cluster Rinnakkaistiedostojärjestelmän käytön valvonta suurteholaskenta tietokoneklusterissa |
Author(s): | Tollander de Balsch, Jaan |
Date: | 2023-03-20 |
Language: | en |
Pages: | 55+8 |
Major/Subject: | Computer Science |
Degree programme: | Master’s Programme in Computer, Communication and Information Sciences |
Supervising professor(s): | Kaski, Petteri |
Thesis advisor(s): | Ilvonen, Sami |
Keywords: | monitoring computer systems, high-performance computing, I/O behavior, parallel file system, Lustre, exploratory data analysis |
Location: |
Archive
OEV |
|
|
Abstract:Monet tehokkaat tietokoneklusterit luottavat järjestelmän laajuiseen, jaettuun rinnakkaistiedostojärjestelmään suuren tallennuskapasiteetin ja kaistanleveyden saavuttamiseksi. Jaettu tiedostojärjestelmä on käytettävissä koko järjestelmässä, mikä tekee siitä käyttäjäystävällisen, mutta altis raskaan käytön aiheuttamille ongelmille. Tällainen käyttö voi aiheuttaa ruuhkautumista ja hidastaa tai jopa pysäyttää koko järjestelmän, mikä vahingoittaa kaikkia rinnakkaistiedostojärjestelmää käyttäviä käyttäjiä. Tässä opinnäytetyössä tutkimme voiko CSC:n tuotantojärjestelmän tiedostojärjestelmän käytön seuranta auttaa tunnistamaan hidastumisen syitä, kuten tiettyjä käyttäjiä tai töitä. CSC:n pitkäaikainen tavoite on rakentaa automaattinen, reaaliaikainen valvonta- ja varoitusjärjestelmä, jonka avulla järjestelmänvalvojat voivat tehdä päätöksiä hidastumisen lievittämiseksi. Tarkemmin sanottuna seuraamme Lustre rinnakkaistiedostojärjestelmän käyttöä Lustre Jobstats ominaisuudella Puhti-klusterissa, joka on monipuolisen käyttäjäkunnan omaava petascale-klusteri. Selitämme tarvittavat yksityiskohdat Puhti-klusterista ja valvontajärjestelmästämme Lustre-tiedostojärjestelmän käyttötietojen ymmärtämiseksi. Opinnäytetyön aikana havaitsimme ongelmia Lustre Jobstats:in tietojen laadussa. Ongelmat vaikuttivat tiedoissa oleviin tunnisteisiin, mikä teki joistakin tiedoista epäluotettavia ja rajoitti kykyämme luoda automaattinen, reaaliaikainen analyysi. Siitä huolimatta saimme käyttökelpoisen tietojoukon tutkivaa data-analyysiä varten. Esittelemme 24 tunnin seurantatietoja näyttämällä visuaalisesti tiedostojärjestelmän käyttötapoja matalalla ja korkealla tasolla. Lisäksi osoitamme, että voimme käyttää tiedostojärjestelmän käyttötietoja tunnistamaan syitä suhteellisiin muutoksiin I/O-trendeissä, erityisesti suurissa suhteellisissa nousuissa. Lopuksi tutkimme ideoita tulevaa työtä varten tiedostojärjestelmän käytön seuraamiseksi luotettavalla tiedolla pidemmältä ajalta. |
|
|
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Page content by: Aalto University Learning Centre | Privacy policy of the service | About this site