Multi-Objective Co-Adaptation for Continuous Robot Control

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Sähkötekniikan korkeakoulu | Master's thesis
Date
2024-05-20
Department
Major/Subject
CRAS
Mcode
ELEC3025
Degree programme
AEE - Master’s Programme in Automation and Electrical Engineering (TS2013)
Language
en
Pages
61+23
Series
Abstract
In nature, animals adapt movement strategies based on morphology, which can evolve over generations. The optimization of the movement strategy based on morphology has proven to be effective in animals. Often, in robotic control tasks, only the behavior of robots is optimized with reinforcement learning. Therefore, it could be beneficial to optimize the morphology of the robot. Earlier research has demonstrated that when behavior and morphology are co-adapted, it enhances performance and reduces the need for iterative design adjustments in robot parts, thereby cutting down costs. To the best of current knowledge, only single-objective co-adaptation has been implemented. However, most real-world robot control problems are often multi-objective and not only single-objective, for example, controlling a robot's movement speed and energy consumption. Therefore, multi-objective co-adaptation of morphology and behavior should be reviewed. This thesis explores a method for multi-objective co-adaptation for continuous robot control. Multi-objective reinforcement learning problems can be scalarized using a utility function into single-objective reinforcement learning problems. Although scalarization is not the perfect solution, it can provide a decent starting place when considering turning a single-objective problem into a multi-objective problem. The objectives can be scalarized into a single combined return using a utility function where the objectives are given a unique preference value from zero to one to a sum of one. The experiments were conducted primarily to answer the question: can the scalarization of returns be used to give preference to model learning to learn specific morphology and returns? These experiments were done using the half-cheetah benchmark, where two approaches were evaluated: a-priori scalarized returns and a vectorized Q-value function with loss function scalarization. The results suggest that a-priori scalarization effectively guides model learning towards specific regions of returns and morphology, with marginal impact from varying initial seeds. The results of vectorized Q-values also confirm this. The bootstrapped vectorized models show that the initial model influences the subsequent morphology and policy adaptation, and sometimes, the bootstrapping allows the model to learn significantly faster than a model trained from scratch.

Luonnossa eläimet mukauttavat morfologiaan perustuvia liikestrategioita, jotka voivat kehittyä sukupolvien aikana. Morfologiaan perustuva liikestrategian optimointi on osoittautunut tehokkaaksi eläimillä. Usein robottiohjaustehtävissä vain robottien käyttäytyminen optimoidaan vahvistusoppimisella. Siksi voisi olla hyödyllistä optimoida robotin morfologia. Aiemmat tutkimukset ovat osoittaneet, että kun käyttäytymistä ja morfologiaa mukautetaan yhdessä, se parantaa suorituskykyä ja vähentää iteratiivisten suunnittelusäätöjen tarvetta robotin osissa, mikä pienentää kustannuksia. Nykyisen tietämyksen mukaan vain yhden tavoitteen mukauttamista on toteutettu. Useimmat reaalimaailman robotin ohjausongelmat ovat kuitenkin usein monitavoitteisia eivätkä vain yksittäisiä, esimerkiksi robotin liikenopeuden ja energiankulutuksen hallintaa. Siksi morfologian ja käyttäytymisen usean tavoitteen mukaista yhteisvaikutusta tulisi tarkastella uudelleen. Tämä opinnäytetyö tutkii menetelmää monitavoitteeseen yhteissopeutukseen jatkuvaan robotin ohjaukseen. Useita tavoitteita vahvistavat oppimisongelmat voidaan skalarisoida apufunktiolla yhden tavoitteen vahvistamisoppimisongelmiksi. Vaikka skalarisointi ei ole täydellinen ratkaisu, se voi tarjota kunnollisen lähtökohdan, kun harkitaan yhden tavoitteen ongelman muuttamista monitavoitteeksi. Tavoitteet voidaan skalaroida yhdeksi yhdistetyksi tuotoksi käyttämällä hyödyllisyysfunktiota, jossa tavoitteille annetaan yksilöllinen preferenssiarvo nollasta yhteen summaan yksi. Kokeet tehtiin ensisijaisesti vastaamaan kysymykseen: voidaanko tuottojen skalarisointia käyttää mallioppimisen suosimiseen tietyn morfologian ja tuottojen oppimiseksi? Nämä kokeet tehtiin käyttämällä puoligepardin vertailuarvoa, jossa arvioitiin kaksi lähestymistapaa: a-priori skalarisoitu tuotto ja vektoroitu Q-arvofunktio, jossa oli häviöfunktion skalarisointi. Tulokset viittaavat siihen, että a-priori skalarisointi ohjaa tehokkaasti mallioppimista kohti tiettyjä tuotto- ja morfologia-alueita, joilla on marginaalinen vaikutus vaihtelevilla alkusiemenillä. Myös vektorisoitujen Q-arvojen tulokset vahvistavat tämän. Bootstrapped vektorisoidut mallit osoittavat, että alkuperäinen malli vaikuttaa myöhempään morfologiaan ja politiikan mukauttamiseen, ja joskus bootstrapping mahdollistaa mallin oppimisen huomattavasti nopeammin kuin tyhjästä koulutettu malli.
Description
Supervisor
Kyrki, Ville
Thesis advisor
Mazumdar, Atanu
Luck, Kevin
Keywords
co-adaptation, reinforcement learning, robotics, multi-objective optimization
Other note
Citation