Dense tracking of human facial geometry

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorLehtinen, Jaakko
dc.contributor.authorRonkainen, Mikko
dc.contributor.schoolSähkötekniikan korkeakoulufi
dc.contributor.supervisorKyrki, Ville
dc.date.accessioned2017-12-18T11:46:39Z
dc.date.available2017-12-18T11:46:39Z
dc.date.issued2017-12-11
dc.description.abstractIn recent years it has become possible to train very deep neural networks. Deep convolutional neural networks (CNNs) have been able to extract relevant information from human faces. Deep fully convolutional neural networks (FCNNs) have been able to do dense pixel-per-pixel segmenting of images. This thesis explored whether it is possible to combine these two approaches and train an FCNN using non-realistic synthetic data to do dense pixel-per-pixel geometry tracking of real-world human faces. Training data was generated by rendering because suitable training dataset was not readily available. UV mapping of the underlying 3D model was used as a basis for the geometry mapping. Neural network topology was based on the U-net design, which is an FCNN with skip connections. Loss function was a simple L1 loss between result and target images. UV gradient images were used as an additional loss term. Data augmentation was used to expand the training dataset and to create occlusions. Various visualization methods were developed to help assess the accuracy of the generated geometry. Results were encouraging as the final network successfully generalized to real-world facial images. Faces were accurately segmented out of the backgrounds, and plausible geometry was generated inside them. Data augmentation prevented the network from overfitting. The occlusion augmentation method enabled the network to inpaint geometry under various obstructions, even ones the network had never seen. Temporal stability of the generated geometry was satisfactory but could be improved, especially under occlusions.en
dc.description.abstractViime vuosien aikana erittäin syvien neuroverkkojen kouluttaminen on tullut mahdolliseksi. Syvät konvoluutionaaliset neuroverkot (CNN) ovat pystyneet analysoimaan ihmiskasvojen piirteitä. Syvät täysin konvoluutionaaliset neuroverkot (FCNN) ovat pystyneet tekemään tiheää pikselipohjaista kuvien lohkomista. Tämä diplomityö tutki mahdollisuutta yhdistää nämä kaksi lähestymistapaa, eli onko mahdollista kouluttaa FCNN epärealistisella synteettisellä datalla tunnistamaan oikeiden ihmiskasvojen geometria tiheästi. Koulutusdata luotiin renderöimällä, koska sopivaa koulutusdataa ei ollut helposti saatavilla. Geometrian mallintaminen perustui renderöintiin käytetyn 3D-mallin UV-kartoitukseen. Neuroverkon topologia perustui U-net -malliseen verkkoon, joka on FCNN hyppy-yhteyksillä. Sakkofunktio oli yksinkertainen L1-sakko tulos- ja kohdekuvien välillä. UV-gradienttikuvia käytettiin lisäterminä sakkofunktiossa. Datan suurentamista käytettiin koulutusdatajoukon näennäisen koon kasvattamiseen ja peitteiden luomiseen. Erilaisia visualisaatiomenetelmiä kehitettiin luodun geometrian oikeellisuuden arvioimiseksi. Tulokset olivat rohkaisevia, koska lopullinen neuroverkko yleistyi onnistuneesti oikeisiin ihmiskasvokuviin. Verkko pystyi lohkomaan kasvot irti taustasta erittäin tarkasti ja niiden tilalle luotu geometria oli uskottavaa. Datan suurentaminen esti menestyksekkäästi neuroverkon ylisovittumisen. Peitteidenluomismenetelmä datan suurentamisen yhteydessä antoi verkolle mahdollisuuden luoda geometriaa näköesteiden alle. Luodun geometrian ajallinen vakaus oli tyydyttävää, mutta voisi olla parempaa erityisesti peitteiden alla.fi
dc.ethesisidAalto 9711
dc.format.extent93
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/29156
dc.identifier.urnURN:NBN:fi:aalto-201712187954
dc.language.isoenen
dc.locationP1fi
dc.programmeAEE - Master’s Programme in Automation and Electrical Engineering (TS2013)en
dc.programme.majorControl, Robotics and Autonomous Systemsen
dc.programme.mcodeELEC3025fi
dc.subject.keywordmachine learningen
dc.subject.keyworddeep learningen
dc.subject.keywordneural networksen
dc.subject.keywordsynthetic dataen
dc.subject.keyworddata augmentationen
dc.titleDense tracking of human facial geometryen
dc.titleIhmiskasvojen geometrian tiheä seurantafi
dc.typeG2 Pro gradu, diplomityöfi
dc.type.ontasotMaster's thesisen
dc.type.ontasotDiplomityöfi
Files
Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
master_Ronkainen_Mikko_2017.pdf
Size:
4.95 MB
Format:
Adobe Portable Document Format