Risk-sensitive reinforcement learning — A survey of risk-sensitive reinforcement Llarning: Risk measures and representative algorithms

Loading...
Thumbnail Image

Files

URL

Journal Title

Journal ISSN

Volume Title

School of Electrical Engineering | Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.

Department

Mcode

Language

en

Pages

36

Series

Abstract

Reinforcement learning (RL) solves complex decision-making problems efficiently. However, this machine learning method has concerns related to risk and safety. Risk control in RL is more important than ever as the application is transitioning to practical domains. Fields such as healthcare and finance require a risk-sensitive approach to avoid negative outcomes. This literature review examines the incorporation of variance and Conditional Value-at-Risk (CVaR) into risk-sensitive objectives. We compare the respective algorithms of the two risk measures with baseline algorithms. In particular, we examine the optimization structure and workflow of the risk-sensitive algorithms, and analyze the performance against the risk-neutral algorithms. The empirical experiments under review exhibit that the selected algorithms successfully steer away from risk without notable decrease in return. The CVaR-based algorithms avoided tail-risk events while variance-based algorithms maintained low variability in returns. However, there are still open challenges concerning risk-sensitivity but this survey demonstrates that research is progressing well.

Vahvistusoppimista (engl. reinforcement learning), eli kokeiluun perustuvaa koneoppimista, sovelletaan käytännön aloilla yhä enemmän. Tämä johtuu vahvistusoppimisen luonteesta, joka sopii peräkkäiseen päätöksentekoon pohjautuviin aloihin kuten terveydenhuoltoon ja rahoitusalaan. Perinteinen vahvistusoppiminen ei kuitenkaan ole riittävä riskialttiiden ongelmien ratkaisuun, sillä se keskittyy ainoastaan keskimääräisen palkkioon, eikä yksittäisten suoritusten vaikutuksiin. Tämä kirjallisuuskatsaus esittelee riskitietoisen (engl. risk-sensitive) vahvistusoppimisen, ja kartoittaa sen keinot määrittää ja vähentää riskiä. Tämä kirjallisuuskatsaus keskittyy kahteen riskimittariin: odotettuun alijäämään (engl. Conditional Value-at-Risk) ja varianssiin. Näihin riskimittareihin perustuvat lukuisat tutkimukset, jotka pyrkivät laatimaan riskitietoisia algoritmeja. Tämä työ tarkastelee kolmen tilannekriteerin avulla mittareiden riskitietoisuuden optimointimenetelmät ja vertailee niiden soveltuvuudet erilaisiin oppimisongelmiin.Ensimmäinen kriteeri varmistaa suoriutumisen pahimmassa tilanteessa, toinen kriteeri riskin ja tuoton tasapainon, ja kolmas käyttäytymisen asetettujen rajoitteiden puitteissa. Koska riskin huomioimisen menetelmä riippuu sovelluksen kohteesta, tämä työ kokoaa ja analysoi kuusi erilaista riskitietoista algoritmia, jotka eroavat pääpiirteiltään. Tarkastelluissa tutkimuksissa, viisi kuudesta valitusta algoritmista ajettiin kokeellisissa simuloinneissa perinteisten algoritmien rinnalla. Lopputuloksena ilmeni, että riskimittareiden avulla, kaikki ajetut riskitietoiset algoritmit onnistuivat ehkäisemään riskialttiita tiloja vaikuttamatta merkittävästi lopputuotokseen. Varianssiin perustuvat algoritmit tuottivat ennustettavampia tuloksia oppimisprosessissa, kun taas odotettuun alijäämään perustuvat algoritmit maksimoivat suoriutumisen häntäriskissä (eng. tail risk). Riskimittarit eivät kuitenkaan ole vielä täydellisiä ratkaisuja riskiongelmiin, sillä niillä on vahvuuksien lisäksi myös heikkouksia. Niiden käytöstä voi seurata esimerkiksi ylivarovaiset toimintastrategiat, joiden myötä hyödyllistä oppimista ei tapahdu. Jos vahvistusoppimisen täysi siirtyminen teoreettisesta toteutuksesta käytännöntoteutukseen olisi ongelmatonta, se olisi äärimmäinen läpimurto. Reaalimaailma on kieltämättä monimutkaisempi kuin simuloitu maailma, ja sen täydellinen mallintaminen koneoppimisen avulla on vaativa tehtävä. Näin seuraa väistämättömiä virheitä oppimisessa, mikä on keskeinen ongelma riskitietoisen vahvistusoppimisen edistämisessä. Riskitietoisella vahvistusoppimisella voitaisiin esimerkiksi tehostaa terveydenhuoltoa. Dynaamisesti suunnitellulla potilaskohtaisella hoidolla (engl. dynamic treatment regime) voidaan käsitellä potilaan kliiniset tiedot, annostella lääkitys ja suunnata optimimaalinen hoito tehokkaasti ilman terveydenhuollon ammattilaista. Tämän hoidon ja monen muun toteutuksen käyttöönotto on kuitenkin vielä vaiheessa, mutta työn tulokset osoittavat, että riskitietoisuuden tutkimisessa edetään hyvää vauhtia oikeaan suuntaan.

Description

Supervisor

Forsman, Pekka

Thesis advisor

Sheng, Xinyi

Other note

Citation