Gesture Recognition from Inertial Measurement Unit Data Using Deep Learning

No Thumbnail Available
Journal Title
Journal ISSN
Volume Title
Sähkötekniikan korkeakoulu | Master's thesis
Date
2023-08-21
Department
Major/Subject
Communications Engineering
Mcode
ELEC3029
Degree programme
CCIS - Master’s Programme in Computer, Communication and Information Sciences (TS2013)
Language
en
Pages
34+6
Series
Abstract
The object of this thesis was to come up with a deep learning model that could recognize hand gestures, drawn in the air dynamically. It was desired that the model would be as generally useful as possible. Therefore, the input of the model was collected using only an inertial measurement unit sensor, and the model size was kept small enough for it to fit into a tiny microcontroller. IMU sensors can be found, for example, in any phone and the combined area of the two components is under 1 cm2. The data for this thesis was collected from 50 subjects varying in age, gender, handedness and size. The subjects were randomly split into training, validation and testing in order for the test accuracy to accurately represent people new to the model. Two different types of deep learning were used in this thesis: vision transformer (ViT) and convolutional neural network (CNN). Both models were custom made for this thesis and over 4 000 variations were tested to find the optimal parameters. The best ViT had a test accuracy of 87.2 % with a prediction latency of 7.97 ms clearly outperforming the 80.8 % accuracy and 29.35 ms latency of the best CNN. The ViT with the second highest accuracy (86.9 %) had an astonishing 3.63 ms latency. The accuracy varied a lot depending on the subject and the gesture. The highest accuracy for the best model, using data from a single subject was 91.7 %.

Tämän diplomityön tavoitteena oli kehittää syväoppimismalli, joka tunnistaa kädellä ilmaan piirrettyjä eleitä. Tavoitteena oli kehittää yleispätevä malli, jota voisi käyttää mahdollisimman laajasti, eri käyttökohteissa. Tämän takia tunnistus tehtiin käyttäen ainoastaan inertiamittayksikköä, ja malli pyrittiin pitämään riittävän pienenä mahtuakseen mikrokontrolleriin. Inertiamittayksikkö on hyvin yleinen komponentti, joka löytyy esimerkiksi jokaisesta älypuhelimesta. Näiden kahden komponentin yhteenlaskettu pinta-ala on alle neliösenttimetri. Työtä varten kerättiin eledataa 50 henkilöltä. Testiryhmä oli heterogeeninen iän, sukupuolen, koon, ja kätisyyden suhteen. Henkilöt jaettiin sattumanvaraisesti koulutus, validaatio ja testi ryhmiin, jotta neuroverkko ei koulutusvaiheessa näe yhtäkään testihenkilön nauhoittamaa elettä. Työssä käytettiin kahta eri neuroverkkotyyppiä: vision transformeria (ViT) ja konvoluutioneuroverkkoa (CNN). Molemmat mallit rakennettiin nimenomaan tätä työtä varten. Yhteensä, näistä neuroverkoista kokeiltiin yli 4 000 variaatiota optimaalisten parametrien löytämiseksi. Parhaan ViT:n tunnistustarkkuus ja latenssi olivat 87.2 % ja 7.97 ms ja parhaalla CNN:llä nämä olivat 80.8 % ja 29.35 ms. ViT tunnisti siis eleet huomattavasti tarkemmin ja nopeammin. Toiseksi tarkin ViT (86.9 %) oli vielä nopeampi 3.63 ms latenssilla. Tunnistustarkkuus vaihteli huomattavasti henkilön ja eleen mukaan. Parhaan neuroverkon korkein yksittäisen henkilön eleiden tunnistustarkkuus 0li 91.7%
Description
Supervisor
Ilin, Alexander
Thesis advisor
Ilin, Alexander
Keywords
convolutional neural network, deep learning, gesture recognition, inertial measurement unit, vision transformer
Other note
Citation