Robustness and Generalizability Across Environments in Causal Reinforcement Learning

No Thumbnail Available
Files
Tammenpää_Lassi_2024.pdf (943.03 KB)
Journal Title
Journal ISSN
Volume Title
Sähkötekniikan korkeakoulu | Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.
Date
2024-05-12
Department
Major/Subject
Mcode
ELEC3014
Degree programme
Automaatio- ja systeemitekniikka AUT
Language
en
Pages
30
Series
Abstract
​Reinforcement learning is a form of machine learning in which an agent learns from feedback which actions lead to a favorable or desirable outcome. In reinforcement learning, the learning process is not supervised, but feedback comes directly from a feedback function encoded in the model. The agent learns the right strategy through trial, error and repetition. ​Causal reasoning is a science that seeks causal relationships underlying phenomena. Actual scenarios are compared with hypothetical scenarios to obtain information about the effects of different variables on the outcome of a phenomenon. ​Reinforcement learning works well when the environment and its rules are well defined. Examples of such environments are video and board games. In a more dynamic and noisy environment, the performance of a conventional reinforcement learning model is significantly degraded, as noise and complex dynamics are difficult to capture in training data. Causal reinforcement learning combines reinforcement learning with causal reasoning. A causal reinforcement learning agent understands the causal relationships in training data and can use these causal relationships in the operational environment. ​Causality greatly increases the robustness of reinforcement learning models, their ability to tolerate environmental noise and change. It allows the transferability of learned strategies from the training phase to the operational environment. Causality also allows the transferability of learned strategies from the training phase to the operational environment. This thesis aims to investigate how and under what conditions causal relationships can be transferred from the training phase to the operational environment, and how causality affects the robustness of reinforcement learning models.

​Vahvistusoppiminen on koneoppimisen muoto, jossa agentti oppii palautteen avulla, mitkä toimenpiteet johtavat suotuisaan tai tavoiteltavaan loppuasetelmaan. Vahvistusoppimisessa oppimisprosessi ei ole valvottu, vaan palaute tulee suoraan malliin koodatun palautefunktion perusteella. Agentti oppii oikean strategian yrityksen, erehdyksen ja toiston avulla. ​Kausaalinen päättely on tiede, joka etsii ilmiöiden syy-seuraussuhteita. Tapahtuneita skenaariota verrataan hypoteettisiin skenaarioihin, ja näin saadaan tietoa eri muuttujien vaikutuksista jonkin ilmiön lopputulemaan. ​Vahvistusoppiminen toimii hyvin, kun ympäristö ja sen säännöt on tarkkaan määritelty. Esimerkkejä tällaisista ympäristöistä ovat video- ja lautapelit. Dynaamisemmassa ja kohinaisemmassa ympäristössä tavanomaisen vahvistusoppimismallin suorituskyky heikkenee merkittävästi, sillä kohinaa ja monimutkaista dynamiikkaa on vaikea ilmentää koulutusdatassa. Kausaalinen vahvistusoppiminen (eng. causal reinforcement learning) yhdistää vahvistusoppimiseen kausaalisen päättelyn. Kausaalinen vahvistusoppimisagentti ymmärtää koulutusdatan syy-seuraussuhteet ja osaa hyödyntää näitä kausaalisuhteita myös toimintaympäristössä. ​Kausaalisuus lisää huomattavasti vahvistusoppimismallien robustiutta, kykyä sietää ympäristön kohinaa ja muutoksia. Kausaalisuus myös mahdollistaa opittujen strategioiden siirrettävyyden koulutusvaiheesta toimintaympäristöön. Tämä tutkielma pyrkii selvittämään, miten ja millä ehdoin kausaalisuhteet voidaan siirtää koulutusvaiheesta oikeaan toimintaympäristöön, ja miten kausaalisuus vaikuttaa vahvistusoppimismallien robustiuteen.
Description
Supervisor
Forsman, Pekka
Thesis advisor
Baumann, Dominik
Keywords
causal, reinforcement learning, robustness, generalizability
Other note
Citation