Estimating Hand Configurations from Sign Language Videos

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.advisor Laaksonen, Jorma
dc.contributor.author Karppa, Matti
dc.date.accessioned 2014-08-29T07:00:01Z
dc.date.available 2014-08-29T07:00:01Z
dc.date.issued 2014-08-21
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/13906
dc.description.abstract A computer vision system is presented that can locate and classify the handshape from an individual sign-language video frame, using a synthetic 3D model. The system requires no training data; only phonetically-motivated descriptions of sign-language hand configuration classes are required. Experiments were conducted with realistically low-quality sign-language video dictionary footage to test various features and metrics to fix the camera parameters of a fixed synthetic hand model to find the best match of the model to the input frame. Histogram of Oriented Gradients (HOG) features with Euclidean distance turned out to be suitable for this purpose. A novel approach, called Trimmed HOGs, with Earth Mover's Distance, as well as simplistic contours and Canny edges with the chamfer distance, also performed favorably. Minimizing the cost function built from these measures with gradient descent optimization further improved the camera parameter fitting results. Classification of images of handshapes into hand configuration classes with nearest-neighbor classifiers built around the chamfer distance between contours and Canny edges, and chi^2 distance between Pyramidal HOG descriptors turned out to yield reasonable accuracy. Although the system displayed only moderate success rates in a full 26-class scenario, the system was able to reach nearly perfect discriminatory accuracy in a binary classification case, and up to 40 % accuracy when images from a restricted set of 12 classes were classified into six hand configuration groups. Considering that the footage used to evaluate the system was of very poor quality, with future improvements, the methods evaluated may be used as basis for a practical system for automatic annotation of sign language video corpora. en
dc.description.abstract Työssä esitetään tietokonenäköjärjestelmä, joka pystyy löytämään ja luokittelemaan käsimuotoja yksittäisistä viittomakielisten videoiden ruuduista synteettistä 3D-mallia käyttäen. Järjestelmä ei vaadi opetusdataa; pelkät foneettisesti motivoidut kuvaukset käden konfiguraatioluokista riittävät. Kokeissa testattiin erilaisia piirteitä ja metriikoita staattisen käsimallin kameraparametrien kiinnittämiseksi, jotta löydettäisiin paras vastaavuus mallin ja syötekuvan välillä. Kokeet ajettiin realistisen heikkolaatuisella videoaineistolla. Gradienttihistogrammit euklidisella etäisyydellä osoittautuivat sopiviksi tähän tarkoitukseen. Uusi työssä esitetty lähestymistapa, jota kutsutaan trimmatuksi gradienttihistogrammiksi, maansiirtäjän etäisyyden (Earth Mover's Distance) kanssa toimi myös hyvin, kuten myös yksinkertaiset ääriviivat ja Canny-reunat chamfer-etäisyyden kanssa. Gradienttilaskeumaoptimointi (gradient descent optimization) paransi kameraparametrien sovitustuloksia. Syötekuvia luokiteltiin lähimmän naapurin luokittimilla, ja ääriviiva- ja Canny-reunapiirteiden chamfer-etäisyyteen sekä pyramidisten gradienttihistogrammien chi^2-etäisyyteen pohjautuvat luokittimet osoittautuivat toimiviksi. Vaikka järjestelmän luokittelutarkkuus jäi vaatimattomaksi täydessä 26 luokan tapauksessa, järjestelmä saavutti liki täydellisen luokittelutarkkuuden binääriluokittelutapauksessa, ja saavutti jopa 40 % tarkkuuden, kun 12 luokan osajoukosta poimittuja kuvia luokiteltiin kuuteen eri ryhmään. Ottaen huomioon aineiston heikosta laadusta johtuvan vaativuuden, voidaan pitää uskottavana, että esitettyjä menetelmiä voidaan käyttää käytännöllisen korpusaineiston automaattiseen annotointiin soveltuvan järjestelmän pohjana. fi
dc.format.extent 101
dc.format.mimetype application/pdf en
dc.language.iso en en
dc.title Estimating Hand Configurations from Sign Language Videos en
dc.title Käden konfiguraatioiden estimointi viittomakielisistä videoista fi
dc.type G2 Pro gradu, diplomityö en
dc.contributor.school Perustieteiden korkeakoulu fi
dc.subject.keyword computer vision en
dc.subject.keyword sign language en
dc.subject.keyword machine learning en
dc.subject.keyword metric space en
dc.subject.keyword computer graphics en
dc.subject.keyword free software en
dc.subject.keyword konenäkö fi
dc.subject.keyword viittomakieli fi
dc.subject.keyword koneoppiminen fi
dc.subject.keyword metriset avaruudet fi
dc.subject.keyword tietokonegrafiikka fi
dc.subject.keyword vapaa ohjelmisto fi
dc.identifier.urn URN:NBN:fi:aalto-201408292557
dc.programme.major Informaatiotekniikka fi
dc.programme.mcode T3006 fi
dc.type.ontasot Master's thesis en
dc.type.ontasot Diplomityö fi
dc.contributor.supervisor Oja, Erkki
dc.programme Tietotekniikan koulutusohjelma fi


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

My Account