Modular Value Function Factorization in Multi-Agent Reinforcement Learning

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorD'Eramo, Carlo
dc.contributor.authorJärnefelt, Oliver
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.supervisorIlin, Alexander
dc.date.accessioned2022-10-23T17:09:35Z
dc.date.available2022-10-23T17:09:35Z
dc.date.issued2022-10-17
dc.description.abstractReal-world problems with multiple actors require them to coordinate while making decisions independently from each other. Typically, the large dimensionality and high unpredictability of the environment hinder the handcrafting or planning of effective behaviors. Multi-agent Reinforcement Learning~(MARL) provides a framework for solving such problems by learning a parameterized policy for each agent that only depends on the state. Common approaches factorize the joint value function of into individual agent utilities enabling them to take independent decisions or learn complex interactions by modeling the utility or payoff functions of the underlying coordination graph. In this thesis, we discover the benefit of exploiting the connection between these two approaches. We propose to leverage the modularity of the embedded coordination graph by formulating the total utility as a sum of subteam mixings and prove that our modular factorization is able to cover the Independent-Global-Max~(IGM) class of joint utility functions. We suggest finding the closest disjoint approximation of non-divisible graphs via graph partitioning, the quality of which we evaluate with a novel value-based partitioning distance measure. We derive theoretical and empirical advantages of our method evincing its benefit over baselines in several one-shot games, designed to highlight the promise of our modular factorization methods.en
dc.description.abstractTodellisen maailman ongelmat, joissa on useita toimijoita, edellyttävät, että ne koordinoivat toimintaansa ja tekevät päätöksiä toisistaan riippumatta. Tyypillisesti ympäristön moniulotteisuus ja arvaamattomuus estävät tehokkaan käyttäytymisen suunnittelun. Monitoimijainen vahvistusoppiminen tarjoaa kehyksen tällaisten ongelmien ratkaisemiseen oppimalla kullekin agentille parametrisoidun käytäntöfunktion, joka riippuu vain ympäristön tilasta. Tyypillisiä lähestymistapoja ovat yhteisen arvofunktion faktorointi yksittäisten agenttien hyötyfunktioiksi, ja tehtävän hyötyfunktion eksplisiittinen mallintaminen koordinaatiograafin avulla. Tässä opinnäytetyössä tutkimme, kuinka yhdistää nämä kaksi tutkimussuuntaa ja mitä hyötyä niiden yhdistämisestä on. Hyödynnämme tehtävän koordinaatiograafin modulaarisuutta esittämällä kokonaishyötyfunktion alaryhmien hyötyfunktioiden summaksi ja hajottamattomien graafien tapauksessa ehdotamme lähimmän hajotetun graafin löytämistä graafipartitiointimenetelmien avulla. Partitiointien laadun mittaamiseksi esittelemme uuden mittafunktion. Näytämme empiirisesti, kuinka modulaarisuuden hyödyntäminen nopeuttaa oppimista suurien toimijamäärien tapauksissa.fi
dc.format.extent58+2
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/117400
dc.identifier.urnURN:NBN:fi:aalto-202210236186
dc.language.isoenen
dc.programmeMaster’s Programme in Computer, Communication and Information Sciencesfi
dc.programme.majorMachine Learning, Data Science and Artificial Intelligencefi
dc.programme.mcodeSCI3044fi
dc.subject.keywordMulti-agent reinforcement learningen
dc.subject.keywordvalue function factorizationen
dc.subject.keywordcoordination graphsen
dc.subject.keywordcentralizedtraining decentralized executionen
dc.titleModular Value Function Factorization in Multi-Agent Reinforcement Learningen
dc.titleJaetun hyötyfunktion modulaarinen faktorointi monitoimijavahvistusoppimisessafi
dc.typeG2 Pro gradu, diplomityöfi
dc.type.ontasotMaster's thesisen
dc.type.ontasotDiplomityöfi
local.aalto.electroniconlyyes
local.aalto.openaccessyes

Files

Original bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
master_Järnefelt_Oliver_2022.pdf
Size:
2.4 MB
Format:
Adobe Portable Document Format