Improving the sample efficiency of few-shot reinforcement learning with policy embeddings
Loading...
Journal Title
Journal ISSN
Volume Title
Sähkötekniikan korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Author
Date
2023-08-21
Department
Major/Subject
Control, Robotics and Autonomous Systems
Mcode
ELEC3025
Degree programme
AEE - Master’s Programme in Automation and Electrical Engineering (TS2013)
Language
en
Pages
58
Series
Abstract
Deep reinforcement learning (RL) is a recent approach to sequential decision making problems whereby agents parametrised by deep neural networks are trained by trial and error to execute tasks optimally in a given environment. One challenge in deep RL is that these algorithms are often characterised by poor sample efficiency, which limits their applicability in settings where environment interactions are expensive. As a step towards addressing this challenge, the objective of this work is to assess whether a population of RL agents with diverse behaviours can be utilised for learning latent policy representations that can improve the sample efficiency of learning similar tasks. For this purpose, deep latent variable models based on hypernetworks - networks generating other neural networks - are employed as generative models of neural network parameters. The main motivation for representing policy networks as embeddings in a low-dimensional latent space is that when incorporated into a RL algorithm, it can allow for policy search to be performed in a space of meaningful high-level behaviours rather than the space of neural network parameters, thus alleviating the curse of dimensionality associated with policy search in high-dimensional neural network parameter spaces and thereby facilitating improvements to sample efficiency. The sample efficiency benefits provided by policy embeddings are assessed for three classes of learning algorithms; on-policy RL, off-policy RL and policy search through Bayesian optimisation. Experiments performed on two populations, involving Mujoco half-cheetah and ant environments, indicate that policy embeddings learned by hypernetworks can improve the sample efficiency of policy search when the latent space is simultaneously utilised for the purpose of exploration, surrogate modeling, and optimisation.Djup förstärkt inlärning är en metod för sekventiell beslutsfattning där djupa neuronnät inlärs genom försök och misstag för att utföra uppgifter optimalt i en specifik omgivning. Djup förstärkt inlärning kräver ofta mycket provtagning under inlärningen, vilket begränsar dess användning i situationer där interaktionen med omgivningen är kostsam. Motiverat av denna utmaning är syftet med detta arbete att undersöka hur diversifierade populationer av agenter kan utnyttjas för inlärning av en gemensam latent struktur och därmed minska behovet av provtagning när nya uppgifter ska läras in. I detta syfte utnyttjas hypernät - neuronnät som kan generera andra neuronnät - som djupa generativa modeller för nätverksvikterna i beslutsfattningspolitiken. På så sätt kan neuronnätets lågdimensionella representation möjliggöra sökning av den optimala beslutsfattningspolitiken på en semantisk nivå snarare än i neuronnätets högdimensionella parameterrum. Inverkan av politikrepresentationerna på effektiviteten i provtagningen under inlärningen av nya uppgifter undersöks i förhållande till tre olika inlärningsalgoritmer. Resultaten från experiment som genomförts i två simulerade robotomgivningar visar att politikrepresentationer inlärda med hypernät kan förbättra provtagningseffektiviteten, förutsatt att de inlärda representationerna samtidigt används för utforskning, surrogatmodellering och optimering.Description
Supervisor
Kyrki, VilleThesis advisor
Luck, KevinKeywords
deep reinforcement learning, policy embeddings, hypernetworks, quality-diversity, variational inference