Sample Efficient Inverse Reinforcement Learning
No Thumbnail Available
Files
Kokko_Juho_2024.pdf (372.06 KB) (opens in new window)
Aalto login required (access for Aalto Staff only).
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2024-05-22
Department
Major/Subject
Tietotekniikka
Mcode
SCI3027
Degree programme
Teknistieteellinen kandidaattiohjelma
Language
en
Pages
24
Series
Abstract
Inverse Reinforcement Learning (IRL) is a machine learning method that aims to infer the reward function of an environment based on observed behavior. Unlike traditional Reinforcement Learning, where the reward function is predefined, IRL seeks to learn this function from demonstrations provided by an expert. This is particularly useful in scenarios where directly specifying the reward function is challenging or impossible. This bachelor’s thesis addresses Inverse Reinforcement Learning and the utilization of active learning to improve sample efficiency. This approach would reduce the number of expensive samples required without compromising the algorithm’s accuracy. The thesis aims to determine how active learning can help to reduce the number of demonstrations required for IRL algorithms. This thesis explores the different ways to integrate active learning into IRL. A literature review was conducted to examine recent developments in IRL and active learning. Several active learning strategies were investigated, including preference-based learning, active advice seeking, and active exploration. The algorithms were evaluated based on how they select samples for querying and their performance in various environments. The results demonstrate that active learning significantly improves the sample efficiency of IRL algorithms. Each approach offers unique benefits depending on the specific context, such as unknown environments or reducing the burden on the expert. However, direct comparisons between the algorithms are challenging due to differing evaluation settings. This thesis concludes that integrating active learning into IRL holds promise for real-world applications by reducing sample requirements. Future research should focus on applying these algorithms in practical scenarios to validate their effectiveness and further refine their methodologies.Käänteinen vahvistusoppiminen (engl. Inverse Reinforcement Learning, IRL) on koneoppimisen menetelmä, jossa pyritään päättelemään ympäristön palkkiofunktio havaitun käyttäytymisen perusteella. Toisin kuin perinteisessä vahvistusoppimisessa (engl. Reinforcement Learning), jossa palkkiofunktio on ennalta määritelty, IRL pyrkii oppimaan tämän funktion asiantuntijan tarjoamien näytösten kautta. Tämä on erityisen hyödyllistä tilanteissa, joissa palkkiofunktion suora määrittäminen on haastavaa tai mahdotonta Tämä kandidaatintyö ̈käsittelee käänteistä vahvistusoppimista ja aktiivisen oppimisen hyödyntämistä näytteiden tehokkuuden parantamisessa. Tällöin kalliiden näytteiden määrää olisi mahdollista vähentää kuitenkaan algoritmin virheettömyyttä heikentämättä. Työn tavoitteena on selvittää, miten aktiivisen oppimisen tekniikoita voidaan hyödyntää, jotta IRL- algoritmien tarvetta asiantuntijan näytöksille voidaan vähentää. Työ keskittyy erityisesti tutkimaan, millä ei tavoilla aktiivista oppimista voidaan integroida IRL-algoritmeihin. Aktiivinen oppiminen auttaa ongelmissa, joissa datan kerääminen on kallista tai ylipäätään hankalaa. Keskeisenä menetelmänä ̈ työssä hyödynnetään kirjallisuuskatsausta, jossa analysoidaan jo olemassa olevia tutkimuksia ja viimeaikaisia tutkimuksia IRL:stä ja aktiivisesta oppimisesta. Tarkastelun kohteena ovat erilaiset aktiivisen oppimisen strategiat ja niiden sisällyttäminen IRL algoritmeihin. Työssä tutkitaan useita eri strategioita kuten aktiivista neuvojen etsimistä, preferenssipohjaista IRL ja riskitietoista aktiivista IRL. Algoritmeja arvioidaan sen perusteella, miten näytteet valittiin kyselyyn (engl. query) ja kuinka tehokkaita ne olivat erilaisissa ympäristöissä. Työn tulokset osoittavat, että aktiivisen oppimisen integroiminen IRL-algoritmeihin voi merkittävästi vähentää tarvittavien näytteiden määrää palkkiofunktion oppimiseksi. Esitellyt tekniikat tarjoavat erilaisia hyötyjä tilanteesta riippuen. Jotkin tekniikat vähentävät asiantuntijan taakkaa, kun taas toiset toimivat paremmin tuntemattomassa ympäristössä. Tämän työn tulokset voivat auttaa näyttämään, mitkä IRL-algoritmit vaikuttavat lupaavimmilta jatkotutkimuksen kannalta. Eri tekniikoiden suoraa vertailua vaikeuttaa kuitenkin erilaiset ympäristöt, joissa tekniikoita on tutkittu. Johtopäätöksenä voidaan todeta, että aktiivisen oppimisen menetelmien hyödyntäminen IRL:ssä tarjoaa lupaavan tavan parantaa näytteiden tehokkuutta ja vähentää täten tarvittavien asiantuntijan näytösten määrää. Tulevaisuudessa on suositeltavaa jatkaa tutkimusta aktiivisen oppimisen algoritmeista käytännönläheisissä tilanteissa, jotta niiden tehokkuus voidaan varmistaa. Tämä työ luo pohjan laajemmille kokeellisille tutkimuksille.Description
Supervisor
Savioja, LauriThesis advisor
Asadi, MahsaKeywords
inverse reinforcement learning, active learning, sample efficiency, active inverse reinforcement learning