Principles and applications of the MuZero algorithm

Loading...
Thumbnail Image

Files

URL

Journal Title

Journal ISSN

Volume Title

School of Electrical Engineering | Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.

Department

Mcode

Language

en

Pages

38

Series

Abstract

Reinforcement learning has become one of the key driving forces of recent progress in artificial intelligence. Within this field, model-based reinforcement learning (MBRL) has been particularly successful. Instead of relying on an external simulator, a model-based agent constructs an internal representation of its environment and uses this representation for planning its actions. One of the most influential MBRL algorithms is MuZero, which builds upon the earlier AlphaGo system introduced in 2016. AlphaGo was originally developed to overcome the enormous state space of the board game Go by combining Monte Carlo Tree Search (MCTS) with deep neural networks. MuZero extends this approach by learning the environment’s dynamics directly, allowing it to plan and act without prior knowledge of game rules or access to a simulator. This design enables MuZero to achieve state-of-the-art performance across a wide range of domains, from board games to Atari environments. The aim of this thesis is to investigate MuZero’s applicability beyond games. To this end, the work examines MuZero’s architectural properties and limitations and analyzes how these affect its suitability for real-world tasks. Additionally, it surveys recent extensions that relax these limitations. Finally, the thesis presents a detailed case study from the financial domain in the form of the 2025 PortfolioZero and evaluates how the method aligns with reinforcement-learning theory and prior MuZero research. Due to its underlying assumptions, MuZero faces challenges in stochastic, continuous-action, and sparsely rewarded settings. Despite thiss, MuZero’s planning-based approach has potential far beyond games, as many real-world applications require optimization and foresight. The MCTS component used in MuZero offers an effective planning algorithm as well as a solution to the exploration-exploitation dilemma. Consequently, MCTS is widely used in scientific research, for example in protein-folding simulations and alloy design. Subsequent research has extended MuZero to address many of its limitations. PortfolioZero illustrates this development by applying a MuZero-inspired algorithm to portfolio allocation in the Chinese stock market. PortfolioZero incorporates extensions that allow the model to handle stochasticity and continuous action spaces. Financial markets pose a particularly demanding challenge for reinforcement learning, as classical economic theory characterizes them as stochastic and thus highly partially observable. Consequently, obtaining informative signals for planning is nontrivial. For this reason, PortfolioZero supplements price data with market-sentiment features derived from multiple news sources. Due to computational constraints, however, the algorithm omits tree search during inference and uses a simplified continuous-action formulation, resulting in theoretically suboptimal performance. Nevertheless, it achieves strong empirical results across multiple metrics, demonstrating that MuZero-style planning holds general promise even in environments traditionally viewed as dominated by noise.

Vahvistusoppiminen on ollut viime aikoina suurin kehityksen edistäjä tekoälyn tutkimuksen rintamalla. Tämän lähestymistavan sisältä malliin perustuva vahvistusoppiminen on erityisesti tuottanut tulosta. Malliin perustuvassa oppimisessa ulkoisen ympäristön käytön sijaan algoritmi kehittää sisäisen esityksen tilastaan, jota se myöhemmin käyttää toimimisensa suunnitteluun. Yksi merkittävimmistä malliin perustuvaa vahvistusoppimista käyttävistä algoritmeista on MuZero, joka johtaa juurensa aikaisemmasta, vuoden 2016 AlphaGo-algoritmista. Aiempi algoritmi kehitettiin alun perin tarkoituksena parantaa tietokoneperusteisten Go-lautapeliä pelaavien algoritmien suorituskykyä. Go-peli on tutkimukselle tärkeä, koska sen erittäin suuri tila-avaruus haastaa epätehokkaita algoritmeja. MuZero yhdistää malliin perustuvan vahvistusoppimisen sekä suunnittelualgoritmin Monte Carlo -puuhaku (MCTS). Algoritmi hyödyntää lisäksi opittua mallia ympäristöstänsä mahdollistaakseen toiminnan myös ilman tietoa pelin säännöistä tai yhteytteyttä simulaattoriin. Tämä yhdistelmä tuottaa todistetusti korkean suorituskyvyn useassa eri käyttötarkoituksessa lautapeleistä Atari-peleihin. Työn tavoitteena on tutkia MuZeron käyttötarkoituksia etenkin pelien ulkopuolella. Tätä varten työ tarkastelee algoritmin ominaisuuksia ja heikkouksia, jotka näihin käyttötarkoituksiin vaikuttavat ja kartoittaa viimeaikaisisa jatkokehityksiä. Lopuksi työ ottaa esille lähempää tarkastelua varten erään sovelluksen rahoitusalalla, ja tutkii miten se asettuu teoriaan ja aikaisempaan MuZeroon liittyvään tutkimukseen. MuZero kohtaa taustansa takia ongelmia stokastisuuden kanssa sekä tilanteissa, jotka ovat tila-avaruudeltaan jatkuvia sekä palkintosignaaliltaan harvoja. MuZeron soveltamisesta voisi olla myös pelien ulkopuolella laajasti hyötyä, sillä käyttötarkoitukset suunnittelevalle ja optimoivaille tekoälylle ovat laajat. Käytännössä MuZero:n käyttämä MCTS on todistetusti hyvä toteutus suunnittelulle ja ratkaisu koneoppimisessa tärkeälle “exploration vs exploitation”-ongelmalle. Vahvistusoppimisen ja MCTS:n yhdistelmää käytetäänkin tällä hetkellä erittäin laajasti tieteellisessä tutkimuksessa esimerkiksi kemian alueella proteiinien laskostumis-simuloinnissa sekä materiaalitieteen alueella metalliseosoptimisaatiossa. Jatkotutkimus on onnistunut kehittämään montaa MuZeron heikkouksista, parantaen suorituskykyä aikaisemmin määritellyissä ongelmatilanteissa. Tätä havainnollistaa vuonna 2025 tutkimusartikkelina julkaistu PortfolioZero, joka tutkii MuZeron soveltamista talousalalla, tarkemmin portfolioallokaatiossa Kiinan osakemarkkinoilla. PortfolioZero implementoi jatkuva-aikaisen tila-avaruuden. Osakemarkkinat ovat erityisen vaativa käyttötarkoitus vahvistusoppimiselle, sillä klassinen tutkimus osoittaa tarkalleen, kuinka stokastiset ja täten osittain havaittavissa ne ovat. Riittävän informaatiosignaalin saanti suunnitelua varten aiheuttaa täten haasteita. Hintadatan lisäksi PortfolioZero käyttää tästä syystä markkinasentimenttidataa, eli yhdistelmää erilaisista uutislähteistä sisääntulonaan. Algoritmi ei kuitenkaan käytä puuhakua inferenssivaiheen aikana ja käyttää supistettua toimintatilan jatkuva-aikaustusta laskentatehon puuttumisen takia, joten algoritmin suorituskyky jää teoreettisesta maksimista vajavaiseksi. Näin tehden algoritmi kuitenkin saavuttaa monella metriikalla vakuuttavan tuloksen, joka osoittaa, että MuZeron lähestymistavalla on yleisluonnollista hyötyä vaikeissakin käyttökohteissa.

Description

Supervisor

Forsman, Pekka

Thesis advisor

Xuan, Chunyu

Other note

Citation