Model-based Reinforcement Learning on a Real-World Hardware Platform RealAnt
Loading...
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Author
Date
2024-01-23
Department
Major/Subject
Machine Learning, Data Science and Artificial Intelligence
Mcode
SCI3070
Degree programme
Master’s Programme in Mathematics and Operations Research
Language
en
Pages
41 + 4
Series
Abstract
Reinforcement learning has seen many advances in performance since deep learning was incorporated into the agents, especially in locomotive tasks with complex dynamics. However, the amount to interactions needed to successfully learn behaviors is quite high and makes real-world reinforcement learning time consuming. Model-based reinforcement learning was introduced as a possible remedy for this problem where a learned dynamics model is used to construct or learn a policy. This class of methods has been quite successful, being able to efficiently learn useful behavior from a fraction of the experience needed for model-free methods. However, these methods introduce many additional hyperparameters and complex interactions which tend to require more environment-specific tuning. In this thesis, we consider a recent real-world robotics platform RealAnt which is a quadruped robot based on the popular challenging locomotion benchmark Ant from Mujoco physics simulator. This platform is low-cost and open-source, making it appealing to budget-conscious real-world reinforcement learning research. The original article introduced various benchmark tasks and demonstrated successful learning using state-of-the-art model-free agents. Our aim is to investigate whether it is possible to improve upon these results by using model-based reinforcement learning. We investigated two types of model-based algorithm families, model-based model predictive control and model-based policy optimization which approach using simulated experience in different ways. To facilitate fast testing, we used the simulated Mujoco environment for the RealAnt. Our experiments for both model-based algorithm families did not yield learning that was comparable to the replicated model-free results, even when a pre-trained model-free agent was used to initialize the learning. We observed that the dynamics model had issues with prediction accuracy, especially when predicting for multiple steps. These issues were most pronounced at the beginning of each episode but also applied after it. Adding regularization to the planning or giving the dynamics model structure did not alleviate these issues. Thus for now, model-free reinforcement learning remains the most effective way of learning in this environment.Vahvistusoppiminen on edistynyt huomattavasti syväoppimisen käyttöönoton jälkeen. Tämä on mahdollistanut oppimisen haastavissa robotiikkaympäristöissä. Kuitenkin tarvittavan vuorovaikutuksen määrä ympäristön kanssa vaikeuttaa näiden menetelmien käyttöä todellisessa maailmassa. Malliperustainen vahvistuoppimminen on yksi ehdotettu ratkaisu tähän ongelmaan jossa ympäristön dynamiikka opitaan eksplisiittisesti. Tätä dynamiikkamallia käyttämällä agentti päättää mitä tekee. Nämä menetelmät ovat toimineet suhteellisen hyvin ja tarvitset vain murto-osan siitä vuorovaikutuksesta mitä mallittomat agentit vaativat oppiakseen käyttäytymään. Ne ovat kuitenkin monimutkaisempia, sisältäen uusia hyperparametreja ja vuorovaikutuksia mallin eri osien välillä. Tässä työssä käsittelemme uutta robotiikka alustaa RealAnt:iä joka on nelijalkainen robotti. Se perustuu suosittuun haastavaan Mujoco Ant oppimisympäristöön. Alkuperäinen artikkeli esitteli useita tehtäviä ja onnistui oppimaan ne käyttäen viimeisimpiä mallittomia menetelmiä. Pyrimme tutkimaan onko mahdollista oppia nopeammin tässä ympäristössä käyttäen malliperusteisia menetelmiä. Käytimme kahta eri malliperusteista algoritmiperhettä: malliperusteinen suunnittelu ja malliperusteinen parametrinen optimointi. Nämä menetelmät käyttävät opittua dynaamista mallia eri tavoin. Käytimme simuloitua ympäristöä nopeuttaaksemme testaamista. Kokeemme molemmilla agenteilla eivät tuottaneet oppimista joka olisi verrattavissa mallittomiin menetelmiin. Dynaamisen mallin kyky ennustaa tulevia tiloja vaikutti heikolta, etenkin monen askeleen päähän. Tämä oli erityisen huomattavaa jokaisen jakson alussa mutta päti myös myöhemminkin jaksossa. Suunnittelun regularisointi tai dynaamisen mallin rakenteen muuttaminen ei ratkaissut tätä ongelmaa. Täten mallittomat menetelmät ovat yhä tehokkain tapa oppia tässä ympäristössä.Description
Supervisor
Kannala, JuhoThesis advisor
Boney, RinuKeywords
reinforcement learning, robotics, model-based planning, deep learning