Dense tracking of human facial geometry
Loading...
Journal Title
Journal ISSN
Volume Title
Sähkötekniikan korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Author
Date
2017-12-11
Department
Major/Subject
Control, Robotics and Autonomous Systems
Mcode
ELEC3025
Degree programme
AEE - Master’s Programme in Automation and Electrical Engineering (TS2013)
Language
en
Pages
93
Series
Abstract
In recent years it has become possible to train very deep neural networks. Deep convolutional neural networks (CNNs) have been able to extract relevant information from human faces. Deep fully convolutional neural networks (FCNNs) have been able to do dense pixel-per-pixel segmenting of images. This thesis explored whether it is possible to combine these two approaches and train an FCNN using non-realistic synthetic data to do dense pixel-per-pixel geometry tracking of real-world human faces. Training data was generated by rendering because suitable training dataset was not readily available. UV mapping of the underlying 3D model was used as a basis for the geometry mapping. Neural network topology was based on the U-net design, which is an FCNN with skip connections. Loss function was a simple L1 loss between result and target images. UV gradient images were used as an additional loss term. Data augmentation was used to expand the training dataset and to create occlusions. Various visualization methods were developed to help assess the accuracy of the generated geometry. Results were encouraging as the final network successfully generalized to real-world facial images. Faces were accurately segmented out of the backgrounds, and plausible geometry was generated inside them. Data augmentation prevented the network from overfitting. The occlusion augmentation method enabled the network to inpaint geometry under various obstructions, even ones the network had never seen. Temporal stability of the generated geometry was satisfactory but could be improved, especially under occlusions.Viime vuosien aikana erittäin syvien neuroverkkojen kouluttaminen on tullut mahdolliseksi. Syvät konvoluutionaaliset neuroverkot (CNN) ovat pystyneet analysoimaan ihmiskasvojen piirteitä. Syvät täysin konvoluutionaaliset neuroverkot (FCNN) ovat pystyneet tekemään tiheää pikselipohjaista kuvien lohkomista. Tämä diplomityö tutki mahdollisuutta yhdistää nämä kaksi lähestymistapaa, eli onko mahdollista kouluttaa FCNN epärealistisella synteettisellä datalla tunnistamaan oikeiden ihmiskasvojen geometria tiheästi. Koulutusdata luotiin renderöimällä, koska sopivaa koulutusdataa ei ollut helposti saatavilla. Geometrian mallintaminen perustui renderöintiin käytetyn 3D-mallin UV-kartoitukseen. Neuroverkon topologia perustui U-net -malliseen verkkoon, joka on FCNN hyppy-yhteyksillä. Sakkofunktio oli yksinkertainen L1-sakko tulos- ja kohdekuvien välillä. UV-gradienttikuvia käytettiin lisäterminä sakkofunktiossa. Datan suurentamista käytettiin koulutusdatajoukon näennäisen koon kasvattamiseen ja peitteiden luomiseen. Erilaisia visualisaatiomenetelmiä kehitettiin luodun geometrian oikeellisuuden arvioimiseksi. Tulokset olivat rohkaisevia, koska lopullinen neuroverkko yleistyi onnistuneesti oikeisiin ihmiskasvokuviin. Verkko pystyi lohkomaan kasvot irti taustasta erittäin tarkasti ja niiden tilalle luotu geometria oli uskottavaa. Datan suurentaminen esti menestyksekkäästi neuroverkon ylisovittumisen. Peitteidenluomismenetelmä datan suurentamisen yhteydessä antoi verkolle mahdollisuuden luoda geometriaa näköesteiden alle. Luodun geometrian ajallinen vakaus oli tyydyttävää, mutta voisi olla parempaa erityisesti peitteiden alla.Description
Supervisor
Kyrki, VilleThesis advisor
Lehtinen, JaakkoKeywords
machine learning, deep learning, neural networks, synthetic data, data augmentation