Combining Scaffolding and Intrinsic Motivation in Reinforcement Learning of Movement Skills
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2021-03-15
Department
Major/Subject
Game Design and Production
Mcode
SCI3046
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
39
Series
Abstract
Deep reinforcement learning methods have been shown to be capable of optimizing agent behavior for complex systems with high number of degrees of freedom. This makes reinforcement learning a promising method for a variety of tasks, including control tasks with physically simulated environments. In this thesis, we study whether physical scaffolding and intrinsic reward could be used to support the learning process in complex control tasks. We compare the method to early termination, which is a common approach used to increase sample efficiency of such tasks. We study if learned skills could transfer from scaffolded environments to their unaided variants. The use of scaffolding and intrinsic reward is inspired by how support is provided for children as they learn motor skills, like balancing a bicycle. We conducted experiments with a custom bicycle simulation environment developed with the OpenAI gym interface and MuJoCo physics simulation engine. In this simulation environment, a number of bicycle tasks were implemented and tested. Our results show that while early termination provides best sample efficiency in all tasks, scaffolding combined with intrinsic reward is able to learn the required skills with similar proficiency for our tasks. Our intrinsic reward, which aims to model competence-based intrinsic motivation, was advantageous for producing a more proficient policy, compared to scaffolding alone.Tämä diplomityö tutkii miten simuloitujen tukilaitteiden ja sisäisen motivaation käyttö vahvistusoppimismenetelmien kanssa voi auttaa koneoppimismallien koulutuksessa. Tämä työ vertaa näiden menetelmien käyttöä terminointiin, joka on yleinen koulutusajojen hyötysuhteen parantamiseen käytetty menetelmä. Työssä tarkastellaan kuinka opitut taidot siirtyvät avustetuista koulutusympäristöistä niiden avustamattomiin vastineisiin. Työn kokeellinen osuus koostuu testiajoista, jotka suoritettiin hyödyntäen kolmea simuloitua polkupyörätehtävää. Saadut tulokset osoittavat, että vaikka tukilaitteiden ja sisäisen motivaation käyttö ei pysty parantamaan tuloksia verrattuna terminoitiin, niiden yhdistelmä pystyy saavuttamaan hyviä tuloksia myös avustamattomissa ajoympäristöissä. Sisäisen motivaation yhdistäminen tukilaitteiden kanssa parantaa taitojen siirtymistä avustamattomiin ympäristöihin verrattuna pelkkään tukilaitteiden käyttöön.Description
Supervisor
Hämäläinen, PerttuThesis advisor
Hämäläinen, PerttuKeywords
machine learning, reinforcement learning, artificial intelligence, intrinsic motivation