Exploring Gaps in Multi-objective Reinforcement Learning Theory and Algorithms

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Sähkötekniikan korkeakoulu | Bachelor's thesis

Department

Mcode

ELEC3014

Language

en

Pages

37

Series

Abstract

Multi-objective reinforcement learning (MORL) addresses decision-making problems where multiple, possibly conflicting objectives must be optimized simultaneously. Unlike single-objective reinforcement learning, MORL employs vector-valued rewards to capture the trade-offs between objectives, necessitating advanced theoretical frameworks and algorithms. This thesis explores the gaps in MORL theory and algorithms for learning problems, focusing on fully observable, single-task, single agent Multi-objective Markov Decision Processes (MOMDPs) and the challenges posed by different utility functions and optimality criteria. The thesis examines key theoretical aspects, including solution sets such as the Pareto Front (PF) and Convex Coverage Set (CCS), and their dependence on utility functions and policy types. The thesis discusses single-policy algorithms and highlights their limitations, particularly for the understudiedESRcriterion, whichis crucialforscenarios requiring optimization over single episodes, such as medical treatments. The thesis also reviews multi-policy algorithms, categorizing them into outer-loop and inner-loop methods, and discusses their applicability to real-world problems. Crucial aspects include sample-efficiency, scalability with respect to the number of objectives, and scalability of state-action spaces. It is clear that the ESR criterion is still understudied, as very few algorithms have been proposed. Moreover, as no solution set has been defined for ESR, there only exist single-policy algorithms for the criterion. There exist many multi-policy methods with clear strengths, but they are often limited by some other factor.

Förstärkningsinlärning med flera mål (eng. Multi-objective Reinforcement Learning, MORL)behandlarbeslutsproblem där flera, möjligen motstridiga mål måste optimeras samtidigt. Till skillnad från förstärkningsinlärning med ett mål använder MORL vektorvärderade belöningar för att fånga kompromisserna mellan målen, vilket kräver avancerade teoretiska ramverk och algoritmer. Denna avhandling utforskar luckor i MORLteori och algoritmer, med fokus på fullt observerbara Markov-beslutsprocesser med flera mål (Multi-objective Markov Decision Processes, MOMDPs), med enk la uppgifter och enkla agenter samt de utmaningar som olika nyttofunktioner och optimalitetskriterier medför. I avhandlingen undersöks viktiga teoretiska aspekter, inklusive lösningsuppsättningar som Pareto Front (PF) och Convex Coverage Set (CCS),ochderas beroende avnyttofunktionerochpolicytyper. I avhandlingen granskas algoritmer med en enda policy och deras begränsningar belyses, särskilt när det gäller det underforskade ESR-kriteriet, som är avgörande för scenarier som kräver optimering över enstaka episoder, till exempel medicinska behandlingar. I avhandlingen granskas också algoritmer med flera policyer, som kategoriseras i metoder med yttre och inre kretsar, med fokus på deras tillämpbarhet på verkliga problem. Viktiga aspekter är bland annat provtagningseffektivitet, skalbarhet med avseende på antalet mål och skalbarhet för tillstånds- och aktionsutrymmen. Det är tydligt att ESR-kriteriet fortfa rande är underforskat, eftersom mycket få algoritmer har föreslagits. Eftersom ingen lösningsuppsättning har definierats för ESR finns det dessutom bara algoritmer med en enda policy för kriteriet. Det finns många multi-policy-metoder med tydliga styrkor, men de begränsas ofta av någon annan faktor.

Description

Supervisor

Forsman, Pekka

Thesis advisor

Heiskanen, Santeri

Other note

Citation