Word-Level Sign Language Recognition Using 3D Convolutional Network Fusion

No Thumbnail Available
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2022-03-21
Department
Major/Subject
Machine Learning, Data Science and Artificial Intelligence
Mcode
SCI3044
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
6+53
Series
Abstract
Sign languages are world-wide identified visual languages and used primarily by people who suffer from hearing disability of some degree. In sign languages the information is passed on using detailed combination of hand and head movements, postures and facial expressions. As a computer vision task sign language recognition is extremely challenging due to the small details in which signs differ. These details can be modelled in multiple ways, and one approach is to divide basic image information into different modalities like skeleton, optical flow and depth data. In this work the aim is to train a 3D convolutional neural network model on multiple modalities, and then fuse the predictions of those models together using Bayesian fusion for more accurate sign classification results. Currently most of the sign language recognition researches are carried out using either American or Chinese sign language datasets. Datasets on smaller sign languages rarely exists and are very troublesome to create because many different signers are needed with multiple repetitions on each sign. In this work it is tested if tuning a sign language recognition model on another sign language data would increase the prediction accuracy of the model. Additionally it is tested how the number of signers in the dataset effects the prediction score. The results of this work show that when fusing the optical flow modality model to the basic RGB image modality model, the prediction accuracy increases over 10\% on average, leading to approximately 80\% accuracy on a 100 word vocabulary. Tuning the model on another sign language dataset before actual training leads to similar results with the baseline. By reducing the number of signers in the training set from six to two, the model accuracy dropped only 10\%. In other words the fusion model was able to reach 70\% accuracy on the 100 word vocabulary with only two signers.

Viittomakielet ovat kansainvälisesti tunnistettuja kieliä, joita ensisijaisesti käyttävät arkielämässään kuurot tai jonkin asteisesta kuulovajeesta kärsivät ihmiset. Kommunikointi viittomakielissä tapahtuu viittomien avulla, jotka ovat yhdistelmä yksityiskohtaisia käsien, pään ja kehon liikkeitä sekä ilmeitä. Monet viittomat, kielestä riippumatta, ovat hyvin tarkkoja ja eroavat toisistaan vain pienissä yksityiskohdissa, mikä tekee viittomakielten automaattisesta tunnistamisesta hyvin haastavaa konenäköä hyödynnettäessä. Liikettä viittomissa voidaan mallintaa monella tapaa ja yksi yleisistä tavoista on jakaa liikedata osiin, modaliteetteihin. Näitä modaliteetteja ovat esimerkiksi luurankodata, syvyysdata ja optinen liike kuvassa. Tämän työn tavoite on kouluttaa 3D konvoluutioneuroverkko erikseen useammalle viittomakielen modaliteetille, sulauttaa näiden ennusteet ja siten parantaa viittomakielen tunnistamisen tarkkuutta. Nykyään suurin osa konenäköä hyödyntävistä ja viittomakielen kääntämistä tutkivista tutkimuksista tehdään Amerikan tai Kiinan viittomakielisten materiaalien avulla. Viittojamäärältään pienempien kielten materiaaleja on hyvin vähän ja niiden kerääminen on haastavaa ja aikaa vievää. Siksi tässä työssä tutkitaan myös, parantaako konenäkömallin esikouluttaminen isommalla eri kielisellä materiaalilla mallin lopullista tarkkuutta. Lisäksi tässä työssä selvitetään viittojien määrän vaikutusta mallin ennusteen tarkkuuteen. Työn tuloksista nähdään, että yhdistämällä kuvan optisen liikeen datalla ja normaalin värikuvan datalla koulutetut mallit voidaan parantaa kummankin mallin tarkkuutta keskimääräisesti yli 10\%, kun käytössä on 100 sanan sanasto. Samalla sanastokoolla myös huomattiin, että viittojien määrän vähentäminen kuudesta henkilöstä kahteen laski ennusteen tarkkuutta vain noin 80\%:sta 70\%:iin. Yhdistelmämallin esikouluttaminen toisella viittomakielellä ei yleisesti tuonut parannusta mallin ennustekykyyn.
Description
Supervisor
Laaksonen, Jorma
Thesis advisor
Laaksonen, Jorma
Keywords
sign language recognition, deep learning, computer vision, neural network fusion, transfer learning
Other note
Citation