Gaze Prediction in VR

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2021-08-23

Department

Major/Subject

Computer Science

Mcode

SCI3042

Degree programme

Master’s Programme in Computer, Communication and Information Sciences

Language

en

Pages

73

Series

Abstract

Rendering immersive virtual reality (VR) content is computationally intensive as resolutions required to achieve an immersive VR experience with Head Mounted Displays (HMD) are significantly higher when compared to traditional displays. The required computational resources can be reduced by using remote rendering (RR) instead of rendering frames locally. Using RR comes with the cost of increasing latency between rendering and displaying the rendered frames, and high bandwidth requirements. Foveated rendering and foveated video encoding can be used with RR to decrease the required computational resources and bandwidth usage. Using those techniques requires accurate immediate future gaze position predictions, as otherwise the rendered frames could be foveated around a location the user is no longer looking at, negatively affecting the user's VR experience. A suitable timeframe for future gaze prediction is 100 milliseconds, as it roughly equals the round-trip time of data in an average remote rendering setting. To predict the immediate future (100 milliseconds) gaze positions, this thesis presents three machine learning (ML) models. The ML models, based on Long Short-Term Memory networks and Convolutional Neural Networks, utilize different combinations of past gaze position data, past HMD orientation data and past image data from the VR content to compute the predictions. Additionally, this thesis presents an application capable of collecting training data for the models. The application records the displayed content, and interfaces with an HMD and an eye-tracker to obtain video recordings, HMD orientation data, and gaze positions. The models were evaluated against three baselines: a classical method based on Kalman Filters, a naive solution using the most recent available gaze position, and the state-of-the-art ML method DGaze. The developed models outperform each of the baselines with a significant margin while using less resources than DGaze and not requiring data internal to the VR content.

Virtuaalitodellisuuden (VR) sisällön renderöinti on laskennallisesti raskasta, sillä immersiivisen VR-kokemuksen mahdollistaminen vaatii huomattavasti korkeampia resoluutioita virtuaalilaseissa käytettävissä näytöissä verrattuna perinteisiin näyttöihin. Kyseistä resurssitarvetta voidaan vähentää käyttämällä etärenderöintiä paikallisen renderöinnin sijaan. Tällöin pilvipalvelin suorittaa renderöinnin vähentäen huomattavasti paikallisen järjestelmän resurssivaatimuksia. Tämä kuitenkin lisää kaistanleveyden käyttöä ja kasvattaa vasteaikaa kuvien renderöinnin ja niiden katsomisen välillä. Etärenderöinnin vaatimia resursseja ja kaistanleveyden käyttöä voidaan vähentää käyttämällä katsekeskeistä renderöintiä tai katsekeskeistä videon koodausta. Tällöin tarvitaan tieto käyttäjän katsepisteistä lähitulevaisuudessa, sillä muuten renderöidyt kuvat saattavat olla katsekeskitetysti renderöity alueelle, jolle käyttäjän katse ei enää kohdistu, vaikuttaen negatiivisesti käyttäjän VR-kokemukseen. Sopiva aikaikkuna tulevaisuuden katse-ennustukselle on 100 millisekuntia, sillä se vastaa keskimääräistä edestakaista tiedon matka-aikaa pilvirenderöintiä käytettäessä. Tämä diplomityö esittelee kolme koneoppimismallia lähitulevaisuuden (100 millisekuntia) katsepisteiden ennustamiseen. Mallit laskevat ennusteet käyttäen menneisyyden katsepistetietoja, virtuaalilasien orientaatiotietoja sekä menneisyydessä renderöityjä kuvia kyseessä olevasta VR-sisällöstä. Mallit perustuvat takaisinkytkettyihin- ja konvoluutioneuroverkkoihin. Lisäksi työssä kehitettiin sovellus mallien opetusdatan keräämistä varten. Sovellus nauhoittaa VR-sisällön ja käyttää katseenseuraajan sekä virtuaalilasien rajapintoja katsetietojen sekä virtuaalilasien orientaatiotietojen keräämiseen. Malleja verrattiin työssä kolmeen referenssimalliin: Kalman-suodinta käyttävään klassiseen menetelmään, naiviin malliin, joka käyttää viimeisintä saatavilla olevaa katsepistettä sekä viimeisimpään koneoppimismenetelmään, DGaze:en. Kehitetyt mallit saavuttivat merkittävästi paremman tarkkuuden kuin referenssimallit, käyttäen samanaikaisesti vähemmän resursseja kuin DGaze.

Description

Supervisor

Ylä-Jääski, Antti

Thesis advisor

Illahi, Gazi

Keywords

gaze prediction, virtual reality, foveated rendering, remote rendering, machine learning, deep learning

Other note

Citation