CLIP-Guided Human Pose Optimization for Virtual Shadow Puppetry

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2023-08-21

Department

Major/Subject

Computer Science

Mcode

SCI3042

Degree programme

Master’s Programme in Computer, Communication and Information Sciences

Language

en

Pages

53+3

Series

Abstract

This work explores new ways of controlling human body pose for computer graphics. We present ShadowCLIP - an optimization system for controlling the pose of human body models using natural language descriptions. ShadowCLIP aims to generate virtual shadow puppetry guided by text prompts. Given a textual description of a scene, it renders a black and white silhouette of a posed human character matching the description. Although previous works exist on the topic of virtual shadow puppetry, we know of no previous works that use language-image models to guide the posing of the characters. This work attempts to yield new insights into the properties of optimization problems in graphics and animation, and which optimization methods work for which problems. Based on our results, we show empirically that the shadow puppetry problem can be more efficiently solved using sampling-based global optimization, than by the use of gradient-based local optimization methods. The results of this work could prove valuable for the games and computer graphics industry as well as the visual arts in general, as rapid generation of poses and animation priors could help lower the workload of artists and democratize asset creation.

Tämä diplomityö tutkii uusia tapoja ohjata ihmiskehon asentoa tietokonegrafiikan sovelluksiin. Esitämme optimointijärjestelmän nimeltä ShadowCLIP, joka ohjaa virtuaalisen ihmiskehon asentoa käyttäen luonnollisella kielellä annettuja tekstikuvauksia. ShadowCLIP tuottaa virtuaalista varjoteatteria tekstipohjaisten kehotteiden pohjalta. Annettaessa tekstipohjaisen kuvauksen halutusta kohteesta, se ohjaa ihmishahmon asentoon, josta renderoitu mustavalkoinen siluettikuva muistuttaa pyydettyä kohdetta. Vaikka virtuaaliseen varjoteatteriin liittyviä tutkimuspapereita on julkaistu aikaisemminkin, emme ole tietoisia aiemmista tutkimuksista, jotka hyödyntäisivät kielikuva -koneoppimismalleja ohjaamaan varjoteatterin hahmojen asentoa. Tämä työ pyrkii tuottamaan uusia oivalluksia tietokonegrafiikan ja animaation optimointiongelmien ominaisuuksiin ja siihen, mitkä optimointimenetelmät toimivat mihinkin ongelmiin. Tulostemme pohjalta näytämme empiirisesti, miten varjoteatteriongelma voidaan ratkaista käyttäen joko gradienttipohjaisia paikallisen optimoinnin menetelmiä tai näytteenottopohjaisia globaaleja optimointimenetelmiä. Työmme tulokset voivat osoittautua arvokkaiksi sekä videopeli- ja tietokonegrafiikkateollisuudelle, että kuvataiteen eri muodoille, sillä asentojen sekä animaatiopriorien nopea generointi voi helpottaa taiteilijoiden ja sisällöntuottajien työtä.

Description

Supervisor

Hämäläinen, Perttu

Thesis advisor

Lehtinen, Jaakko
Hämäläinen, Perttu

Keywords

optimization, machine learning, computer graphics, animation, generative artificial intelligence, motion synthesis

Other note

Citation