Dense tracking of human facial geometry
dc.contributor | Aalto-yliopisto | fi |
dc.contributor | Aalto University | en |
dc.contributor.advisor | Lehtinen, Jaakko | |
dc.contributor.author | Ronkainen, Mikko | |
dc.contributor.school | Sähkötekniikan korkeakoulu | fi |
dc.contributor.supervisor | Kyrki, Ville | |
dc.date.accessioned | 2017-12-18T11:46:39Z | |
dc.date.available | 2017-12-18T11:46:39Z | |
dc.date.issued | 2017-12-11 | |
dc.description.abstract | In recent years it has become possible to train very deep neural networks. Deep convolutional neural networks (CNNs) have been able to extract relevant information from human faces. Deep fully convolutional neural networks (FCNNs) have been able to do dense pixel-per-pixel segmenting of images. This thesis explored whether it is possible to combine these two approaches and train an FCNN using non-realistic synthetic data to do dense pixel-per-pixel geometry tracking of real-world human faces. Training data was generated by rendering because suitable training dataset was not readily available. UV mapping of the underlying 3D model was used as a basis for the geometry mapping. Neural network topology was based on the U-net design, which is an FCNN with skip connections. Loss function was a simple L1 loss between result and target images. UV gradient images were used as an additional loss term. Data augmentation was used to expand the training dataset and to create occlusions. Various visualization methods were developed to help assess the accuracy of the generated geometry. Results were encouraging as the final network successfully generalized to real-world facial images. Faces were accurately segmented out of the backgrounds, and plausible geometry was generated inside them. Data augmentation prevented the network from overfitting. The occlusion augmentation method enabled the network to inpaint geometry under various obstructions, even ones the network had never seen. Temporal stability of the generated geometry was satisfactory but could be improved, especially under occlusions. | en |
dc.description.abstract | Viime vuosien aikana erittäin syvien neuroverkkojen kouluttaminen on tullut mahdolliseksi. Syvät konvoluutionaaliset neuroverkot (CNN) ovat pystyneet analysoimaan ihmiskasvojen piirteitä. Syvät täysin konvoluutionaaliset neuroverkot (FCNN) ovat pystyneet tekemään tiheää pikselipohjaista kuvien lohkomista. Tämä diplomityö tutki mahdollisuutta yhdistää nämä kaksi lähestymistapaa, eli onko mahdollista kouluttaa FCNN epärealistisella synteettisellä datalla tunnistamaan oikeiden ihmiskasvojen geometria tiheästi. Koulutusdata luotiin renderöimällä, koska sopivaa koulutusdataa ei ollut helposti saatavilla. Geometrian mallintaminen perustui renderöintiin käytetyn 3D-mallin UV-kartoitukseen. Neuroverkon topologia perustui U-net -malliseen verkkoon, joka on FCNN hyppy-yhteyksillä. Sakkofunktio oli yksinkertainen L1-sakko tulos- ja kohdekuvien välillä. UV-gradienttikuvia käytettiin lisäterminä sakkofunktiossa. Datan suurentamista käytettiin koulutusdatajoukon näennäisen koon kasvattamiseen ja peitteiden luomiseen. Erilaisia visualisaatiomenetelmiä kehitettiin luodun geometrian oikeellisuuden arvioimiseksi. Tulokset olivat rohkaisevia, koska lopullinen neuroverkko yleistyi onnistuneesti oikeisiin ihmiskasvokuviin. Verkko pystyi lohkomaan kasvot irti taustasta erittäin tarkasti ja niiden tilalle luotu geometria oli uskottavaa. Datan suurentaminen esti menestyksekkäästi neuroverkon ylisovittumisen. Peitteidenluomismenetelmä datan suurentamisen yhteydessä antoi verkolle mahdollisuuden luoda geometriaa näköesteiden alle. Luodun geometrian ajallinen vakaus oli tyydyttävää, mutta voisi olla parempaa erityisesti peitteiden alla. | fi |
dc.ethesisid | Aalto 9711 | |
dc.format.extent | 93 | |
dc.format.mimetype | application/pdf | en |
dc.identifier.uri | https://aaltodoc.aalto.fi/handle/123456789/29156 | |
dc.identifier.urn | URN:NBN:fi:aalto-201712187954 | |
dc.language.iso | en | en |
dc.location | P1 | fi |
dc.programme | AEE - Master’s Programme in Automation and Electrical Engineering (TS2013) | en |
dc.programme.major | Control, Robotics and Autonomous Systems | en |
dc.programme.mcode | ELEC3025 | fi |
dc.subject.keyword | machine learning | en |
dc.subject.keyword | deep learning | en |
dc.subject.keyword | neural networks | en |
dc.subject.keyword | synthetic data | en |
dc.subject.keyword | data augmentation | en |
dc.title | Dense tracking of human facial geometry | en |
dc.title | Ihmiskasvojen geometrian tiheä seuranta | fi |
dc.type | G2 Pro gradu, diplomityö | fi |
dc.type.ontasot | Master's thesis | en |
dc.type.ontasot | Diplomityö | fi |
Files
Original bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- master_Ronkainen_Mikko_2017.pdf
- Size:
- 4.95 MB
- Format:
- Adobe Portable Document Format