Combining Scaffolding and Intrinsic Motivation in Reinforcement Learning of Movement Skills

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2021-03-15

Department

Major/Subject

Game Design and Production

Mcode

SCI3046

Degree programme

Master’s Programme in Computer, Communication and Information Sciences

Language

en

Pages

39

Series

Abstract

Deep reinforcement learning methods have been shown to be capable of optimizing agent behavior for complex systems with high number of degrees of freedom. This makes reinforcement learning a promising method for a variety of tasks, including control tasks with physically simulated environments. In this thesis, we study whether physical scaffolding and intrinsic reward could be used to support the learning process in complex control tasks. We compare the method to early termination, which is a common approach used to increase sample efficiency of such tasks. We study if learned skills could transfer from scaffolded environments to their unaided variants. The use of scaffolding and intrinsic reward is inspired by how support is provided for children as they learn motor skills, like balancing a bicycle. We conducted experiments with a custom bicycle simulation environment developed with the OpenAI gym interface and MuJoCo physics simulation engine. In this simulation environment, a number of bicycle tasks were implemented and tested. Our results show that while early termination provides best sample efficiency in all tasks, scaffolding combined with intrinsic reward is able to learn the required skills with similar proficiency for our tasks. Our intrinsic reward, which aims to model competence-based intrinsic motivation, was advantageous for producing a more proficient policy, compared to scaffolding alone.

Tämä diplomityö tutkii miten simuloitujen tukilaitteiden ja sisäisen motivaation käyttö vahvistusoppimismenetelmien kanssa voi auttaa koneoppimismallien koulutuksessa. Tämä työ vertaa näiden menetelmien käyttöä terminointiin, joka on yleinen koulutusajojen hyötysuhteen parantamiseen käytetty menetelmä. Työssä tarkastellaan kuinka opitut taidot siirtyvät avustetuista koulutusympäristöistä niiden avustamattomiin vastineisiin. Työn kokeellinen osuus koostuu testiajoista, jotka suoritettiin hyödyntäen kolmea simuloitua polkupyörätehtävää. Saadut tulokset osoittavat, että vaikka tukilaitteiden ja sisäisen motivaation käyttö ei pysty parantamaan tuloksia verrattuna terminoitiin, niiden yhdistelmä pystyy saavuttamaan hyviä tuloksia myös avustamattomissa ajoympäristöissä. Sisäisen motivaation yhdistäminen tukilaitteiden kanssa parantaa taitojen siirtymistä avustamattomiin ympäristöihin verrattuna pelkkään tukilaitteiden käyttöön.

Description

Supervisor

Hämäläinen, Perttu

Thesis advisor

Hämäläinen, Perttu

Keywords

machine learning, reinforcement learning, artificial intelligence, intrinsic motivation

Other note

Citation