Supernetes: Establishing synergy between supercomputers and cloud computing

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis

Department

Mcode

Language

en

Pages

82

Series

Abstract

High-Performance Computing (HPC) and cloud-native computing have long developed in isolated verticals with opposite computational assumptions. However, especially with the advent of large-scale AI/ML workloads, Kubernetes-based cloud native platforms are quickly adapting to support HPC-style batch workloads. Simultaneously, modern and diverse demand for HPC resources, especially in Europe, is driving the need for more accessible, secure and available solutions for both research and commercial use. Kubernetes is poised to exit the cloud computing realm and become a universal platform across compute capacity, leveraging containers to provide scalability, portability, and secure multitenancy for upcoming hyperconverged exascale HPC systems, such as the LUMI AI Factory. Addressing both the cloud-native and HPC communities, this thesis presents a broad landscape overview of the cloud-native HPC transformation through modern challenges faced by traditional HPC environments. The thesis walks through the steps taken by the communities towards achieving a cloud-native, Kubernetes-enabled HPC environment. From minimally disruptive solutions all the way to hyperconvergence, the thesis presents a variety of projects and ecosystems adapting to different compute environments. Alongside categorizing cloud-to-HPC bridges, the thesis introduces and evaluates \textit{Supernetes}, a transparent, bidirectional bridge solution built for the Kubernetes transition of HPC systems, including the LUMI supercomputer. Beyond bridges, the thesis covers key developments in the cloud-native HPC and batch space, with a focus on hyperconverged scheduling and GPU partitioning. With the current cloud-native batch ecosystem focusing on AI/ML workloads, this thesis also considers the need for legacy compatibility with Slurm and Flux Framework in order to support traditional HPC applications. Finally, by presenting a stepwise migration process for current HPC environments towards a modern Kubernetes base, the thesis evaluates a best-of-both-worlds approach capable of solving even the utmost HPC challenges: secure multitenancy and high availability.

Suurteholaskenta (High-Performance Computing, HPC) ja pilvinatiivinen laskenta ovat pitkään kehittyneet toisistaan erillään, perustuen vastakkaisiin työkuormaolettamuksiin. Erityisesti laajamittaisten tekoäly- ja koneoppimiskuormien (AI/ML) yleistyessä Kubernetes-pohjaiset pilvinatiivit alustat ovat kuitenkin nopeasti lisäämässä tukea HPC-tyyppisille eräajotöille. Samaan aikaan nykyaikainen ja monimuotoinen kysyntä HPC-resursseille, erityisesti Euroopassa, kasvattaa tarvetta saavutettavammille, tietoturvallisemmille ja käytettävämmille ratkaisuille niin tutkimuksessa kuin myös kaupallisessa käytössä. Kubernetes on laajenemassa perinteisen pilvilaskennan ulkopuolelle universaaliksi laskenta-alustaksi, missä konttiteknologia mahdollistaa skaalautuvuuden, yhteensopivuuden ja turvallisen monikäyttäjäympäristön tulevissa hyperkonvergenssiin perustuvissa eksaskaalan HPC-järjestelmissä, kuten LUMI AI Factoryssa. Tämä maisterityö on suunnattu sekä pilvinatiiville että HPC-yhteisölle ja esittelee laaja-alaisesti pilvinatiivin HPC:n monimuotoisuutta perinteisten HPC-ympäristöjen kohtaamien nykyaikaisten haasteiden kautta. Työssä kuvataan yhteisöjen ottamia askelia kohti pilvinatiivia, Kubernetes-yhteensopivaa HPC-ympäristöä. Esittelemällä joukon projekteja ja ekosysteemejä, työ huomioi erilaisiin laskentaympäristöihin mukautuvia ratkaisuja vähiten muutoksia vaativista toteutuksista aina hyperkonvergenssiin asti. Pilvi-HPC-siltaohjelmistojen kategorisoinnin lisäksi työssä esitellään ja arvioidaan työn ohella kehitetty Supernetes-siltaohjelmisto. Supernetes on läpinäkyvä ja kaksisuuntainen silta, joka on suunniteltu auttamaan HPC-järjestelmien, kuten LUMI-supertietokoneen, siirtymistä Kubernetes-alustan päälle. Siltaohjelmistojen lisäksi maisterityö käsittelee keskeisiä kehityssuuntia pilvinatiivissa HPC- ja eräajolaskennassa, erityisesti hyperkonvergoitua vuoronnusta ja GPU-resurssien ositusta. Koska nykyinen pilvinatiivinen eräajoympäristö keskittyy tekoäly- ja koneoppimistyökuormiin, työssä tarkastellaan myös yhteensopivuuden säilyttämistä perinteisten HPC-sovellusten kanssa hyödyntäen Slurm ja Flux Framework -alustoja. Lopuksi työ esittelee vaiheittaisen siirtymämallin nykyisille HPC-ympäristöille kohti modernia Kubernetes-pohjaa, arvioiden parhaiden ominaisuuksien yhdistelmää, mikä kykenee ratkaisemaan jopa kaikkein vaativimmat HPC-haasteet: turvallisen monikäyttäjäympäristön ja korkean saatavuuden.

Description

Supervisor

Korpi-Lagg, Maarit

Thesis advisor

Gran, Ernst Gunnar

Other note

Citation