Characterizing LLM inference workload patterns

Loading...
Thumbnail Image

Files

URL

Journal Title

Journal ISSN

Volume Title

School of Electrical Engineering | Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.

Department

Mcode

Language

en

Pages

36

Series

Abstract

In recent years, the usage of LLMs has grown rapidly. LLM inference refers to the process in which a trained LLM generates responses on user-provided input. LLM inference is often hosted on the cloud and run in large-scale data centers. The workloads of LLM inference in the cloud cause considerable emissions due to the powerful hardware requiring large amounts of energy for running and cooling. In order to decrease the emissions caused by LLM inference, its workload patterns need to be understood. This understanding provides a foundation for efficient resource management and helps reduce unnecessary energy consumption. In this thesis, LLM inference workload patterns were characterized and analyzed. The analysis was based on two open datasets: Azure LLM inference trace and BurstGPT, both of which contain real-life data of LLM inference requests. The analyzed properties were arrival times of inference requests, lengths of the requests, and lengths of the generated responses. The results of the analysis were visualized using Jupyter Notebook, and Python and its libraries. The results of the study showed that the arrival times of inference requests had clear diurnal and weekly patterns. Most inference requests were received during working hours, and the least during nights and weekends. BurstGPT had more prominent daily patterns than the Azure LLM trace, while both datasets showed clear differences in request volumes between weekdays and weekends. The analysis of lengths of requests and responses showed that the received requests were longer than the generated responses. The median response lengths did not have much hourly variation in either dataset, while the median request lengths did. In the Azure LLM trace, the requests were generally longer during the day and shorter during the night. In BurstGPT however, the median lengths of the requests were longer during nights than days. In both datasets, there was some positive correlation between the request and corresponding response lengths, but the correlation was only weak or moderate. Based on the workload patterns identified in the study, resource allocation in the cloud could be better aligned with actual demand, improving the energy efficiency of LLM inference.

Generatiivisen tekoälyn käyttö on yleistynyt viime vuosina paljon. Yksi generatiivisen tekoälyn muodoista ovat laajat kielimallit, jotka ovat päätyneet monipuoliseen käyttöön nyky-yhteiskunnassa. Laajojen kielimallien inferenssi tarkoittaa prosessia, jossa koulutettu malli tekee sille annetun kysymyksen perusteella päätelmiä ja generoi kysyttyyn kysymykseen vastauksen. Inferenssi suoritetaan yleensä pilvipalveluissa, joihin aiheutuu inferenssipyynnöistä erilaisia ja -kokoisia kuormituksia. Näistä kuormituksista aiheutuu merkittävissä määrin ilmastolle haitallisia päästöjä. Jotta laajojen kielimallien inferenssistä aiheutuvaa ilmastovaikutusta voidaan vähentää, tulee laajojen kielimallien inferenssikuormituksia tutkia ja luokitella. Tässä opinnäytetyössä analysoitiin ja luokiteltiin laajojen kielimallien inferenssikuormituksia kahden avoimen tietokannan avulla. Ensimmäisen tietokannan data on kerätty Microsoft Azure -pilvipalvelussa suoritettujen laajojen kielimallien inferenssipyynnöistä. Toinen tietokanta on nimeltään BurstGPT, ja se sisältää ChatGPT:n ja GPT-4-mallin käyttödataa. Kummassakin tietokannassa on tietoa inferenssipyyntöjen saapumisajoista ja pituuksista, sekä generoitujen vastausten pituuksista. Työssä laskettiin inferenssipyyntöjen tilastollisia tunnuslukuja sekä visualisoitiin inferenssipyyntöjen saapumisaikoja ja pituuksia sekä generoitujen vastausten pituuksia Pythonin ja tilastotyökalujen avulla. Työn tavoitteena oli löytää laajojen kielimallien inferenssikuormituksista erilaisia toistuvuuksia. Inferenssipyyntöjen saapumisajoissa huomattiin tutkimuksessa selkeitä toistuvuuksia. Inferenssipyyntöjä saapui yleisesti eniten arkipäivisin ja vähiten öisin sekä viikonloppuisin. Azure-tietokannan tuloksissa huomattiin, että inferenssipyyntöjä saapui arkiöisin enemmän kuin viikonloppuina päivisin. BurstGPT-tietokannan tuloksina puolestaan oli, että inferenssipyyntöjä saapui selkeästi vähiten öisin, jolloin pyyntöjen määrä läheni nollaa. Pyyntöjen määrän toistuvuutta tutkittiin autokorrelaation avulla, mikä paljasti varsinkin BurstGPT-tietokannan osalta erittäin selkeät päivittäiset ja viikoittaiset toistuvuudet inferenssipyyntöjen määrässä. Inferenssipyyntöjen ja generoitujen vastausten pituuksista huomattiin, että kummassakin tietokannassa inferenssipyynnöt olivat lähtökohtaisesti pidempiä kuin generoidut vastaukset. Generoitujen vastausten pituuksissa ei ollut huomattavissa selkeää tai säännöllistä vaihtelua päivänajan mukaan. Inferenssipyyntöjen pituuksissa huomattiin kuitenkin eroavaisuuksia. Azure-tietokannassa inferenssipyynnöt olivat mediaanipituudeltaan lähtökohtaisesti pidempiä päiväsaikaan ja lyhyempiä öisin. BurstGPT-tietokannassa puolestaan mediaanipituudeltaan pisimmät inferenssipyynnöt sijoittuivat aamuyölle, kun taas päivällä pyyntöjen mediaanipituus oli lyhyempi eikä juurikaan vaihdellut tunneittain. Koska laajojen kielimallien inferenssikuormituksista löydettiin toistuvuuksia, olisi tulosten pohjalta mahdollista tehdä jatkotutkimusta laajojen kielimallien inferenssin ilmastovaikutusten vähentämiseksi. Jatkotutkimus voisi käsitellä esimerkiksi pilvipalveluiden erilaisten resurssien suunnittelua optimaalisesti tässä tutkimuksessa paljastuneiden inferenssikuormitusten toistuvuuksien perusteella.

Description

Supervisor

Lassila, Pasi

Thesis advisor

Premsankar, Gopika

Other note

Citation