Optimization opportunities in reinforcement learning fine-tuning of large language models

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorTan, Zheyue
dc.contributor.authorPesonen, Pekko
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.schoolSchool of Scienceen
dc.contributor.supervisorSavioja, Lauri
dc.date.accessioned2025-12-30T17:46:40Z
dc.date.available2025-12-30T17:46:40Z
dc.date.issued2025-12-08
dc.description.abstractRecently, Large Language Models (LLM) have seen success solving complex tasks requiring reasoning capabilities. Reinforcement learning fine-tuning has shown to be capable of training LLMs with the required reasoning capabilities to solve these tasks. RLFT enables models to learn from environmental feedback, but it introduces new system-level optimization challenges not found in traditional LLM learning. These challenges include the management of multiple heterogeneous models, larger context windows, environment management and workload scheduling. This thesis investigates these specific bottlenecks and evaluates the effectiveness of current solutions. Three state-of-the-art RLFT frameworks: HybridFlow, ROLL, and ASearcher, were analyzed, with a focus on their specific strategies for tackling these issues. The findings of this thesis indicate that recent innovations, such as flexible model placement and asynchronous execution, successfully mitigate key challenges in RLFT. However, we also show that many of the optimization strategies employed by these frameworks involve trade-offs between training speed, training stability and system complexity. Consequently, the thesis concludes that as model and environment complexity continues to grow, optimizing individual components may not be the end all be all, and future research should focus on holistic, whole-graph optimization strategies to ensure scalable and robust RLFT systems.en
dc.description.abstractViime aikoina suuret kielimallit (engl. Large Language Model, LLM) ovat menestyneet monimutkaisten päättelyä vaativien tehtävien ratkaisemisessa. Vahvistusoppimisjatkokoulutus (engl. Reinforcement Learning Fine-Tuning, RLFT) on osoittautunut kykeneväksi kouluttamaan kielimalleille näissä tehtävissä tarvittavia päättelykykyjä. RLFT mahdollistaa oppimisen ympäristön palautteesta, mutta tuo mukanaan uusia järjestelmätason optimointihaasteita, joita perinteisessä kielimallien koulutuksessa ei esiinny. RLFT:n tuomia haasteita ovat useiden heterogeenisten mallien hallinta, suuret konteksti-ikkunat, ympäristöjen hallinta sekä prosessejen aikataulutus. Tämä kandidaatintutkielma tutkii näitä haasteita ja arvioi nykyisten ratkaisujen tehokkuutta. Työ analysoi kolmea nykyaikaista RLFT järjestelmää: HybridFlow, ROLL ja ASearcher. Ja analysoi niiden tapoja ratkaista RLFT:n haasteita. Työn löydökset osoittavat, että viimeaikaiset innovaatiot, kuten joustava mallien sijoittelu ja asynkroninen suoritus ratkaisevat onnistuneesti RLFT:n keskeisiä haasteita. Huomataan myös, että monet näiden järjestelmien käyttämistä optimointistrategioista sisältävät kompromisseja koulutusnopeuden, järjestelmän monimutkaisuuden ja koulutuksen vakauden välillä. Johtopäätöksenä todetaan, että mallien ja ympäristöjen monimutkaisuuden kasvaessa yksittäisten komponenttien optimoinnin sijaan tutkimuksen tulisi keskittyä mallintamaan järjestelmä yhtenäisenä graafina ja optimoimaan se kokonaisuutena.fi
dc.format.extent28
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/141592
dc.identifier.urnURN:NBN:fi:aalto-202512309700
dc.language.isoenen
dc.programmeBachelor's Programme in Science and Technologyen
dc.programmeTeknistieteellinen kandidaattiohjelmafi
dc.programmeKandidatprogram i teknikvetenskapsv
dc.programme.majorComputer Scienceen
dc.subject.keywordlarge language modelsen
dc.subject.keywordreinforcement learningen
dc.subject.keywordsystem optimizationen
dc.titleOptimization opportunities in reinforcement learning fine-tuning of large language modelsen
dc.titleOptimointimahdollisuudet suurten kielimallien vahvistusoppimisjatkokoulutuksessafi
dc.typeG1 Kandidaatintyöfi
dc.type.ontasotBachelor's thesisen
dc.type.ontasotKandidaatintyöfi
local.aalto.openaccessyes

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
bachelor_Pesonen_Pekko_2025.pdf
Size:
778.33 KB
Format:
Adobe Portable Document Format