Optimization opportunities in reinforcement learning fine-tuning of large language models

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Bachelor's thesis

Department

Major/Subject

Mcode

Language

en

Pages

28

Series

Abstract

Recently, Large Language Models (LLM) have seen success solving complex tasks requiring reasoning capabilities. Reinforcement learning fine-tuning has shown to be capable of training LLMs with the required reasoning capabilities to solve these tasks. RLFT enables models to learn from environmental feedback, but it introduces new system-level optimization challenges not found in traditional LLM learning. These challenges include the management of multiple heterogeneous models, larger context windows, environment management and workload scheduling. This thesis investigates these specific bottlenecks and evaluates the effectiveness of current solutions. Three state-of-the-art RLFT frameworks: HybridFlow, ROLL, and ASearcher, were analyzed, with a focus on their specific strategies for tackling these issues. The findings of this thesis indicate that recent innovations, such as flexible model placement and asynchronous execution, successfully mitigate key challenges in RLFT. However, we also show that many of the optimization strategies employed by these frameworks involve trade-offs between training speed, training stability and system complexity. Consequently, the thesis concludes that as model and environment complexity continues to grow, optimizing individual components may not be the end all be all, and future research should focus on holistic, whole-graph optimization strategies to ensure scalable and robust RLFT systems.

Viime aikoina suuret kielimallit (engl. Large Language Model, LLM) ovat menestyneet monimutkaisten päättelyä vaativien tehtävien ratkaisemisessa. Vahvistusoppimisjatkokoulutus (engl. Reinforcement Learning Fine-Tuning, RLFT) on osoittautunut kykeneväksi kouluttamaan kielimalleille näissä tehtävissä tarvittavia päättelykykyjä. RLFT mahdollistaa oppimisen ympäristön palautteesta, mutta tuo mukanaan uusia järjestelmätason optimointihaasteita, joita perinteisessä kielimallien koulutuksessa ei esiinny. RLFT:n tuomia haasteita ovat useiden heterogeenisten mallien hallinta, suuret konteksti-ikkunat, ympäristöjen hallinta sekä prosessejen aikataulutus. Tämä kandidaatintutkielma tutkii näitä haasteita ja arvioi nykyisten ratkaisujen tehokkuutta. Työ analysoi kolmea nykyaikaista RLFT järjestelmää: HybridFlow, ROLL ja ASearcher. Ja analysoi niiden tapoja ratkaista RLFT:n haasteita. Työn löydökset osoittavat, että viimeaikaiset innovaatiot, kuten joustava mallien sijoittelu ja asynkroninen suoritus ratkaisevat onnistuneesti RLFT:n keskeisiä haasteita. Huomataan myös, että monet näiden järjestelmien käyttämistä optimointistrategioista sisältävät kompromisseja koulutusnopeuden, järjestelmän monimutkaisuuden ja koulutuksen vakauden välillä. Johtopäätöksenä todetaan, että mallien ja ympäristöjen monimutkaisuuden kasvaessa yksittäisten komponenttien optimoinnin sijaan tutkimuksen tulisi keskittyä mallintamaan järjestelmä yhtenäisenä graafina ja optimoimaan se kokonaisuutena.

Description

Supervisor

Savioja, Lauri

Thesis advisor

Tan, Zheyue

Other note

Citation