Monitoring parallel file system usage in a high-performance computer cluster

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorIlvonen, Sami
dc.contributor.authorTollander de Balsch, Jaan
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.supervisorKaski, Petteri
dc.date.accessioned2023-03-26T17:05:15Z
dc.date.available2023-03-26T17:05:15Z
dc.date.issued2023-03-20
dc.description.abstractMany high-performance computer clusters, rely on a system-wide, shared, parallel file system for large storage capacity and bandwidth. A shared file system is available across the entire system, making it user-friendly but prone to problems from heavy use. Such use can cause congestion and slow down or even halt the whole system, harming all users who use the parallel file system. In this thesis, we investigate whether monitoring file system usage in a production system at CSC can help identify the causes of slowdowns, such as specific users or jobs. The long-goal at CSC is to build an automatic, real-time monitoring and warning system that system administrators can use to make decisions on alleviating the slowdowns. Specifically, we monitor the usage of the Lustre parallel file system with Lustre Jobstats feature in the Puhti cluster, which is a petascale cluster with a diverse user base. We explain the necessary details of the Puhti cluster and our monitoring system to understand the Lustre file system usage data. During the thesis, we discovered issues in the data quality from Lustre Jobstats. The issues affected identifiers in the data, making some data unreliable and limiting our ability to build an automatic, real-time analysis. Nevertheless, we obtained a feasible data set for explorative data analysis. We demonstrate 24 hours of monitoring data by visually demonstrating file system usage patterns at low and high-level. Furthermore, we show that we can use file system usage data to identify causes of relative changes in I/O trends, particularly large relative increases. Finally, we explore ideas for future work on monitoring file system usage with reliable data from longer periods.en
dc.description.abstractMonet tehokkaat tietokoneklusterit luottavat järjestelmän laajuiseen, jaettuun rinnakkaistiedostojärjestelmään suuren tallennuskapasiteetin ja kaistanleveyden saavuttamiseksi. Jaettu tiedostojärjestelmä on käytettävissä koko järjestelmässä, mikä tekee siitä käyttäjäystävällisen, mutta altis raskaan käytön aiheuttamille ongelmille. Tällainen käyttö voi aiheuttaa ruuhkautumista ja hidastaa tai jopa pysäyttää koko järjestelmän, mikä vahingoittaa kaikkia rinnakkaistiedostojärjestelmää käyttäviä käyttäjiä. Tässä opinnäytetyössä tutkimme voiko CSC:n tuotantojärjestelmän tiedostojärjestelmän käytön seuranta auttaa tunnistamaan hidastumisen syitä, kuten tiettyjä käyttäjiä tai töitä. CSC:n pitkäaikainen tavoite on rakentaa automaattinen, reaaliaikainen valvonta- ja varoitusjärjestelmä, jonka avulla järjestelmänvalvojat voivat tehdä päätöksiä hidastumisen lievittämiseksi. Tarkemmin sanottuna seuraamme Lustre rinnakkaistiedostojärjestelmän käyttöä Lustre Jobstats ominaisuudella Puhti-klusterissa, joka on monipuolisen käyttäjäkunnan omaava petascale-klusteri. Selitämme tarvittavat yksityiskohdat Puhti-klusterista ja valvontajärjestelmästämme Lustre-tiedostojärjestelmän käyttötietojen ymmärtämiseksi. Opinnäytetyön aikana havaitsimme ongelmia Lustre Jobstats:in tietojen laadussa. Ongelmat vaikuttivat tiedoissa oleviin tunnisteisiin, mikä teki joistakin tiedoista epäluotettavia ja rajoitti kykyämme luoda automaattinen, reaaliaikainen analyysi. Siitä huolimatta saimme käyttökelpoisen tietojoukon tutkivaa data-analyysiä varten. Esittelemme 24 tunnin seurantatietoja näyttämällä visuaalisesti tiedostojärjestelmän käyttötapoja matalalla ja korkealla tasolla. Lisäksi osoitamme, että voimme käyttää tiedostojärjestelmän käyttötietoja tunnistamaan syitä suhteellisiin muutoksiin I/O-trendeissä, erityisesti suurissa suhteellisissa nousuissa. Lopuksi tutkimme ideoita tulevaa työtä varten tiedostojärjestelmän käytön seuraamiseksi luotettavalla tiedolla pidemmältä ajalta.fi
dc.format.extent55+8
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/120229
dc.identifier.urnURN:NBN:fi:aalto-202303262552
dc.language.isoenen
dc.programmeMaster’s Programme in Computer, Communication and Information Sciencesfi
dc.programme.majorComputer Sciencefi
dc.programme.mcodeSCI3042fi
dc.subject.keywordmonitoring computer systemsen
dc.subject.keywordhigh-performance computingen
dc.subject.keywordI/O behavioren
dc.subject.keywordparallel file systemen
dc.subject.keywordLustreen
dc.subject.keywordexploratory data analysisen
dc.titleMonitoring parallel file system usage in a high-performance computer clusteren
dc.titleRinnakkaistiedostojärjestelmän käytön valvonta suurteholaskenta tietokoneklusterissafi
dc.typeG2 Pro gradu, diplomityöfi
dc.type.ontasotMaster's thesisen
dc.type.ontasotDiplomityöfi
local.aalto.electroniconlyyes
local.aalto.openaccessyes
Files
Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
master_Tollander_de_Balsch_Jaan_2023.pdf
Size:
6.94 MB
Format:
Adobe Portable Document Format