Keyframe Animation With Reinforcement Learning

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis

Department

Mcode

Language

en

Pages

31

Series

Abstract

Traditionally, animation is created by defining keyframes and interpolating between them. This is a labor-intensive process that requires multiple keyframes per second to achieve high-quality animation. In this thesis, we aim to leverage machine learning to reduce the number of keyframes animators need to define while still producing high-quality animations. We address this keyframe problem using the Goal-Conditioned Supervised Learning (GCSL) algorithm. Training a policy with GCSL involves collecting trajectories and performing likelihood maximization on them. While GCSL has been empirically shown to work with robotic hands, its effectiveness with underactuated characters, such as humanoids, remains unexplored. We hypothesize that GCSL performs better in a hierarchical reinforcement learning setting, where the low-level policy maintains balance and prevents the character from falling into undesired attractor states, such as collapsing into a lying-down position, compared a policy trained from scratch. We compare the hierarchical policy to a policy trained from scratch. Although our hierarchical policy performs better than the policy trained from scratch, it is still far from perfect, and further studies are needed.

Perinteisesti animaatio luodaan määrittelemällä avainkehyksiä (keyframe) ja interpoloimalla niiden välillä. Tämä on työläs prosessi, joka vaatii useita avainkehyksiä sekunnissa laadukkaan animaation aikaansaamiseksi. Tässä diplomityössä pyrimme hyödyntämään koneoppimista niin että animaattoreiden ei tarvitse määritellä avainkehyksiä niin tiheästi tuottaen silti korkealaatuisia animaatioita. Käsittelemme tätä avainkehysongelmaa Goal-Conditioned Supervised Learning (GCSL) -algoritmin avulla. GCSL:n avulla tapahtuvaan toimintatapojen oppimiseen kuuluu liikeratojen kerääminen ja niiden todennäköisyyden maksimointi tietyin ehdoin. GCSL:n on empiirisesti osoitettu toimivan robottikäsien kanssa, mutta sen tehokkuutta ei ole vielä tutkittu kaatumisherkillä hahmoilla, kuten humanoideilla. Hypoteesimme on, että GCSL toimii paremmin hierarkkisessa vahvistusoppimisympäristössä, jossa matalan tason liikettä ohjaava hermoverkko ylläpitää tasapainoa ja estää hahmoa kaatumasta ei-toivottuihin attraktoritiloihin, kuten kaatumisesta johtuvaan makuuasentoon, verrattuna tyhjästä koulutettuun liikettä ohjaava hermoverkko. Testaamme tämän hypoteesin vertailemalla hierarkkista politiikkaa politiikkaan, joka on koulutettu tyhjästä. Vaikka hierarkkinen politiikka toimii paremmin kuin tyhjästä koulutettu politiikka, se on silti kaukana täydellisestä, joten lisä tutkimusta tarvitaan vielä.

Description

Supervisor

Hämäläinen, Perttu

Thesis advisor

Kim, Nam Hee

Other note

Citation