Active learning for annotation and recognition of faces in video
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2021-05-17
Department
Major/Subject
Machine Learning, Data Science and Artificial Intelligence
Mcode
SCI3044
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
73 + 21
Series
Abstract
Data scarcity is often a concern when working with real-world datasets. From a machine learning point of view, it is problematic when datasets are not pre-labeled, so supervised learning cannot be easily performed. In this thesis, a novel annotation pipeline for video data is introduced that aims to solve this problem. The system consists of a data extraction phase, as well as a labeling architecture and user interface. Various techniques and models from active learning, face detection, face recognition and object tracking are used and improved upon to put together an end-to-end system. Importantly, the pipeline builds upon many recent advances within face detection and recognition, that utilize deep convolutional neural networks. The single-stage neural face detector used enables accurate trajectories of faces to be formed. Additionally, another neural model is used to create embedding vectors of faces, which are then used for clustering. The system is evaluated in terms of labeling cost and noise, against a new dataset of Finnish feature films. It is determined that the labeling effort is reduced by orders of magnitude, as compared to a naive approach.Bristfälliga data är ofta ett dilemma då verklighetsbaserade dataset behandlas. Ur ett maskininlärningsperspektiv blir detta problematiskt, ifall data inte är annoterade på förhand. I så fall kan inte väglätt lärande (supervised learning) tillämpas. I detta diplomarbete introduceras ett nytt annoteringssystem för video, som ämnar att lösa detta problem. Systemet består av en fas för extraktion av data och en arkitektur, samt användargränssnitt, för annotering. Olika tekniker och modeller ifrån aktiv inlärning, ansiktsigenkänning och ansiktsidentifiering används i systemet. Dessutom används och förbättras en teknik från objektspårning (object tracking), och alla dessa metoder sätts ihop till ett helhetstäckande system. Systemet bygger på flera viktiga framsteg inom ansiktsigenkänning och identifiering, som använder sig av tekniker inom djupa faltningsnätverk (convolutional neural networks). Den neurala ansiktsigenkänningsmodell som används möjliggör att noggranna tidsbanor för ansikten formas. Ytterligare en annan modell används för vektorisering (embedding) av ansiktena. Dessa vektorer utnyttjas därpå för klusterering. Systemet urvärderas på basis av hur effektivt annoteringen kan utföras, samt hur lite störningar som förekommer i extraherade data. En samling finska filmer används som basmaterial i denna analys. Det fastställs att systemet reducerar annoteringsarbetet mycket i jämförelse med naiva lösningar på samma problem.Description
Supervisor
Laaksonen, JormaThesis advisor
Laaksonen, JormaKeywords
active learning, face detection, face recognition, deep learning, machine learning