Active learning for annotation and recognition of faces in video

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2021-05-17

Department

Major/Subject

Machine Learning, Data Science and Artificial Intelligence

Mcode

SCI3044

Degree programme

Master’s Programme in Computer, Communication and Information Sciences

Language

en

Pages

73 + 21

Series

Abstract

Data scarcity is often a concern when working with real-world datasets. From a machine learning point of view, it is problematic when datasets are not pre-labeled, so supervised learning cannot be easily performed. In this thesis, a novel annotation pipeline for video data is introduced that aims to solve this problem. The system consists of a data extraction phase, as well as a labeling architecture and user interface. Various techniques and models from active learning, face detection, face recognition and object tracking are used and improved upon to put together an end-to-end system. Importantly, the pipeline builds upon many recent advances within face detection and recognition, that utilize deep convolutional neural networks. The single-stage neural face detector used enables accurate trajectories of faces to be formed. Additionally, another neural model is used to create embedding vectors of faces, which are then used for clustering. The system is evaluated in terms of labeling cost and noise, against a new dataset of Finnish feature films. It is determined that the labeling effort is reduced by orders of magnitude, as compared to a naive approach.

Bristfälliga data är ofta ett dilemma då verklighetsbaserade dataset behandlas. Ur ett maskininlärningsperspektiv blir detta problematiskt, ifall data inte är annoterade på förhand. I så fall kan inte väglätt lärande (supervised learning) tillämpas. I detta diplomarbete introduceras ett nytt annoteringssystem för video, som ämnar att lösa detta problem. Systemet består av en fas för extraktion av data och en arkitektur, samt användargränssnitt, för annotering. Olika tekniker och modeller ifrån aktiv inlärning, ansiktsigenkänning och ansiktsidentifiering används i systemet. Dessutom används och förbättras en teknik från objektspårning (object tracking), och alla dessa metoder sätts ihop till ett helhetstäckande system. Systemet bygger på flera viktiga framsteg inom ansiktsigenkänning och identifiering, som använder sig av tekniker inom djupa faltningsnätverk (convolutional neural networks). Den neurala ansiktsigenkänningsmodell som används möjliggör att noggranna tidsbanor för ansikten formas. Ytterligare en annan modell används för vektorisering (embedding) av ansiktena. Dessa vektorer utnyttjas därpå för klusterering. Systemet urvärderas på basis av hur effektivt annoteringen kan utföras, samt hur lite störningar som förekommer i extraherade data. En samling finska filmer används som basmaterial i denna analys. Det fastställs att systemet reducerar annoteringsarbetet mycket i jämförelse med naiva lösningar på samma problem.

Description

Supervisor

Laaksonen, Jorma

Thesis advisor

Laaksonen, Jorma

Keywords

active learning, face detection, face recognition, deep learning, machine learning

Other note

Citation