The effect of curriculum design on movement optimization landscapes
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Sähkötekniikan korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2021-06-14
Department
Major/Subject
Control, Robotics and Autonomous Systems
Mcode
ELEC3025
Degree programme
AEE - Master’s Programme in Automation and Electrical Engineering (TS2013)
Language
en
Pages
68+1
Series
Abstract
Many successful examples of learning and optimizing simulated movement rely on some form of curriculum, i.e., progressions from easy to hard tasks. Although curriculum learning has been utilized in numerous studies and significant benefits for training performance been documented, the underlying optimization-theoretic foundation is not well understood. The use of curricula is typically motivated intuitively or based on inspiration from human movement learning, but the precise effects of the curricula on the optimization problem are not analyzed. One hypothesis has been proposed in the literature: curricula initially smooth the optimization landscapes, making optimization easier but potentially biased. As training progresses, smoothing is gradually reduced in a way that guides optimization to a dominant optimum. However, clear evidence for this hypothesis is lacking, which constitutes the knowledge gap that this thesis addresses. This thesis systematically evaluates the effects of curriculum design through a series of ablation studies. Results from the studies are analyzed to determine how optimization landscapes are influenced by curricula and to evaluate the proposed hypothesis. Three movement-related reinforcement learning tasks are chosen and curricula are implemented for them. The effects of successful curricula are evaluated by visualizing the optimization landscapes of the learning tasks at multiple points during training, both with and without curricula. The visualizations in this thesis show that curricula do increase the smoothness and convexity of optimization landscapes, but the effect is not that dramatic. However, successful curricula make desired optima more pronounced and make their basins of attraction larger, which explains the increased robustness to different random initializations.Monissa onnistuneissa simuloidun liikkumisen oppimis- ja optimointitehtävissä hyödynnetään opetussuunnitelmia (engl. curriculum), joissa lopullista oppimistavoitetta aluksi helpotetaan merkittävästi, ja vaikeusaste nousee vähitellen. Vaikka opetussuunnitelmien käyttöä on tutkittu laajalti ja useita käytännön etuja on havaittu, menetelmän vaikutukset optimointitehtäviin ovat edelleen epäselviä. Opetussuunnitelmien käyttö perustellaan yleensä intuitiolla tai ottamalla mallia eläinten ja ihmisten opetusmenetelmistä. Kirjallisuudessa on esitetty hypoteesi menetelmän teoreettisesta taustasta: opetussuunnitelmissa olevat helpottamiskeinot tasoittavat oppimistehtävien optimointimaastoja, helpottaen optimointia, mutta voivat myös vääristää todellisen optimin sijaintia. Opetuksen edetessä tasoitusta vähennetään vähitellen siten, että optimointi ohjautuu dominoivaan optimiin alkuperäisessä maastossa. Selvä osoitus hypoteesin paikkansapitävyydestä kuitenkin puuttuu. Tässä työssä selvitetään, miten opetussuunnitelmien käyttö vaikuttaa simuloidun liikkeen oppimisen optimointimaastoihin. Havaintojen perusteella arvioidaan kirjallisuudessa esitettyä hypoteesiä. Tämän työn kokeellisessa osuudessa valitaan kolme liikkumiseen keskittyvää koneoppimistehtävää, ja tehtäviin kehitetään sopivat opetussuunnitelmat. Onnistuneiden suunnitelmien vaikutuksia tutkitaan kuvantamalla optimointimaastojen muutoksia koulutuksen aikana sekä suunnitelmien kanssa että ilman. Tässä työssä tehdyt kuvaajat osoittavat, että opetussuunnitelmat tasoittavat optimointimaastoja, mutta vaikutus on rajallinen. Onnistuneet opetussuunnitelmat kuitenkin korostavat tavoiteltua optimia ja laajentavat sen vetovoima-aluetta, mikä selittää opetussuunnitelmien sietokyvyn satunnaisille alustuksille.Description
Supervisor
Hämäläinen, PerttuThesis advisor
Acharya, AdityaKeywords
reinforcement learning, curriculum learning, slice visualization, neural networks