Offline Reinforcement Learning for Autonomous Driving Applications

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Sähkötekniikan korkeakoulu | Bachelor's thesis

Department

Mcode

ELEC3014

Language

en

Pages

35

Series

Abstract

This thesis presents the fundamental systems of autonomous vehicles and the decisionmaking challenges that autonomous vehicles face. Online and offline reinforcement learning are presented on a high abstraction level and they are compared in the context of autonomous driving. The thesis provides a comprehensive motivation to explain why offline reinforcement learning could be especially suitable for autonomous driving. After presenting the necessary preliminary information, the thesis compares two different studies that employed offline reinforcement learning using real driving data. The results of the studies are analyzed to provide an overview of the current state of offline reinforcement learning for autonomous driving. Although the studies demonstrated the successful use of real driving data with offline reinforcement learning methods, they highlighted certain issues. The studies showed that offline reinforcement learning algorithms struggle in learning from human demonstrations, and noted that offline reinforcement learning algorithms might face problems learning from real driving data where collisions are rare. The studies found that data augmentation improved learning results. Data augmentation methods are a relevant area for future research. Both studies used a simplified driving scenario with limited domain, and their results do not translate well to the goal of level 5 autonomy. Considering the goal of level 5 autonomy, a relevant direction for future research is the scalability of different offline reinforcement learning methods and the relationship between existing data and required training data.

Autonomisten ajoneuvojen käyttöönotto mahdollistaisi turvallisemman ja kestävämmän liikenteen sekä parantaisi ajokyvyiltään rajoittuneiden henkilöiden liikkumista henkilöautoilla. Yksi suurimmista haasteista autonomisten ajoneuvojen kehityksessä on niiden päätöksentekoalgoritmit, joiden vastuulla ovat reitin suunnittelu, toteuttaminen ja ajon aikana tapahtuvat päätökset. Päätöksentekoalgoritmin tulisi pystyä yleistämään hyvän ja turvallisen ajamisen olemus ja toimimaan sen mukaisesti. Tämänkaltaiseen tehtävään hyödynnetään vahvistusoppimista, koska vahvistusoppimisalgoritmit pystyvät oppimaan suuria kokonaisuuksia ja tuottamaan monimutkaisia päätöksentekomalleja. Vahvistusoppiminen perustuu vuorovaikutukseen, joka tapahtuu tavallisesti simulaatiossa. Vuorovaikutuksella kerättyyn tietoon perustuva toimintamalli kehitetään simulaatiossa, minkä jälkeen se voidaan tuoda todelliseen maailmaan. Tämä ei kuitenkaan ole ongelmatonta, ja mikäli simulaation ja tosielämän välillä on eroja, oppii algoritmi hyväksikäyttämään simulaation ominaisuuksia, jotka eivät välttämättä päde todellisessa elämässä. Simulointiin liittyvät haasteet motivoivat tutkimaan datapohjaista vahvistusoppimista (offline reinforcement learning), jonka perimmäinen tarkoitus on suorittaa vahvistusoppimista ilman simulaatiota. Tämän kandidaatintyön tarkoitus on tutkia datapohjaiseen vahvistusoppimisen soveltuvuutta autonomisten autojen päätöksentekoon. Datapohjainen vahvistusoppiminen on vahvistusoppimisen alatyyppi, joka pyrkii oppimaan parhaan toimintamallin etukäteen kerätystä vuorovaikutusdatasta. Datapohjainen vahvistusoppiminen riippuu suuresti datan määrästä ja laadusta, mutta autonomisten ajoneuvojen tapauksessa datan kerääminen on edullista, sillä siinä voidaan hyödyntää tavallisten ihmisen ajokäyttäytymistä. Datapohjaisessa vahvistusoppimisessa koneoppimisalgoritmi ei voi tuottaa lisää dataa vuorovaikutuksella, ja sen suurimmat haasteet liittyvät tähän puutteeseen. Datapohjainen vahvistusoppiminen mahdollistaa simulaatiosta luopumisen, mutta aiheuttaa muita ongelmia. Keskeisin ongelma on jakauman muutos (distribution shift), joka tarkoittaa sitä, että opittu toimintamalli hyödyntää toimintoja, jotka eivät esiinny etukäteen kerätyssä datassa. Tällaisilla toiminnoilla voi olla odottamattomia ja haitallisia vaikutuksia. Datapohjaisen vahvistusoppimisen algoritmit perustuvat jakauman muutoksen ratkaisemiseen. Työssä tarkastellaan kahta tutkimusta, jotka hyödynsivät datapohjaista vahvistusoppimista. Tutkimuksissa käytettiin oikean elämän ajodataa yksinkertaistetussa ajotehtävässä. Tutkimukset demonstroivat onnistuneesti oikean elämän ajodatan käyttämistä vahvistusoppimisessa. Niissä kuitenkin korostuu datapohjaisen vahvistusoppimisen tunnetut haasteet, kuten esimerkiksi jakauman muutos. Tutkimukset osoittavat oikean elämän datan hyödyntämisen olevan haastavaa, ja oppimistulosten olevan heikkoja silloin, kun data ei sisällä kolareita. Kolareiden lisääminen dataa laajentamalla auttoi malleja oppimaan paremmin. Tarkastelluissa tutkimuksissa datan laajentaminen tehtiin simulaatiolla. Datan laajentaminen on yksi lupaavista tulevaisuuden kehityssuunnista. Molemmissa tutkimuksissa toteutettiin erittäin yksinkertaistettu oppimistehtävä, minkä takia tutkimusten tulokset eivät ole yleistettävissä tosielämän vaatimuksiin. Tulevaisuuden autonomisten autojen toimintaympäristöt ja tilakuvaukset ovat erittäin suuria, ja siksi datapohjaisen vahvistusoppimisen skaalautuvuus on tärkeä suunta uudelle tutkimukselle.

Description

Supervisor

Forsman, Pekka

Thesis advisor

Baimukashev, Daulet

Other note

Citation