Gaze Prediction in VR
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2021-08-23
Department
Major/Subject
Computer Science
Mcode
SCI3042
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
73
Series
Abstract
Rendering immersive virtual reality (VR) content is computationally intensive as resolutions required to achieve an immersive VR experience with Head Mounted Displays (HMD) are significantly higher when compared to traditional displays. The required computational resources can be reduced by using remote rendering (RR) instead of rendering frames locally. Using RR comes with the cost of increasing latency between rendering and displaying the rendered frames, and high bandwidth requirements. Foveated rendering and foveated video encoding can be used with RR to decrease the required computational resources and bandwidth usage. Using those techniques requires accurate immediate future gaze position predictions, as otherwise the rendered frames could be foveated around a location the user is no longer looking at, negatively affecting the user's VR experience. A suitable timeframe for future gaze prediction is 100 milliseconds, as it roughly equals the round-trip time of data in an average remote rendering setting. To predict the immediate future (100 milliseconds) gaze positions, this thesis presents three machine learning (ML) models. The ML models, based on Long Short-Term Memory networks and Convolutional Neural Networks, utilize different combinations of past gaze position data, past HMD orientation data and past image data from the VR content to compute the predictions. Additionally, this thesis presents an application capable of collecting training data for the models. The application records the displayed content, and interfaces with an HMD and an eye-tracker to obtain video recordings, HMD orientation data, and gaze positions. The models were evaluated against three baselines: a classical method based on Kalman Filters, a naive solution using the most recent available gaze position, and the state-of-the-art ML method DGaze. The developed models outperform each of the baselines with a significant margin while using less resources than DGaze and not requiring data internal to the VR content.Virtuaalitodellisuuden (VR) sisällön renderöinti on laskennallisesti raskasta, sillä immersiivisen VR-kokemuksen mahdollistaminen vaatii huomattavasti korkeampia resoluutioita virtuaalilaseissa käytettävissä näytöissä verrattuna perinteisiin näyttöihin. Kyseistä resurssitarvetta voidaan vähentää käyttämällä etärenderöintiä paikallisen renderöinnin sijaan. Tällöin pilvipalvelin suorittaa renderöinnin vähentäen huomattavasti paikallisen järjestelmän resurssivaatimuksia. Tämä kuitenkin lisää kaistanleveyden käyttöä ja kasvattaa vasteaikaa kuvien renderöinnin ja niiden katsomisen välillä. Etärenderöinnin vaatimia resursseja ja kaistanleveyden käyttöä voidaan vähentää käyttämällä katsekeskeistä renderöintiä tai katsekeskeistä videon koodausta. Tällöin tarvitaan tieto käyttäjän katsepisteistä lähitulevaisuudessa, sillä muuten renderöidyt kuvat saattavat olla katsekeskitetysti renderöity alueelle, jolle käyttäjän katse ei enää kohdistu, vaikuttaen negatiivisesti käyttäjän VR-kokemukseen. Sopiva aikaikkuna tulevaisuuden katse-ennustukselle on 100 millisekuntia, sillä se vastaa keskimääräistä edestakaista tiedon matka-aikaa pilvirenderöintiä käytettäessä. Tämä diplomityö esittelee kolme koneoppimismallia lähitulevaisuuden (100 millisekuntia) katsepisteiden ennustamiseen. Mallit laskevat ennusteet käyttäen menneisyyden katsepistetietoja, virtuaalilasien orientaatiotietoja sekä menneisyydessä renderöityjä kuvia kyseessä olevasta VR-sisällöstä. Mallit perustuvat takaisinkytkettyihin- ja konvoluutioneuroverkkoihin. Lisäksi työssä kehitettiin sovellus mallien opetusdatan keräämistä varten. Sovellus nauhoittaa VR-sisällön ja käyttää katseenseuraajan sekä virtuaalilasien rajapintoja katsetietojen sekä virtuaalilasien orientaatiotietojen keräämiseen. Malleja verrattiin työssä kolmeen referenssimalliin: Kalman-suodinta käyttävään klassiseen menetelmään, naiviin malliin, joka käyttää viimeisintä saatavilla olevaa katsepistettä sekä viimeisimpään koneoppimismenetelmään, DGaze:en. Kehitetyt mallit saavuttivat merkittävästi paremman tarkkuuden kuin referenssimallit, käyttäen samanaikaisesti vähemmän resursseja kuin DGaze.Description
Supervisor
Ylä-Jääski, AnttiThesis advisor
Illahi, GaziKeywords
gaze prediction, virtual reality, foveated rendering, remote rendering, machine learning, deep learning