Gesture recognition from video applied to an avatar in virtual meetings

No Thumbnail Available
Journal Title
Journal ISSN
Volume Title
School of Chemical Engineering | Master's thesis
Checking the digitized thesis and permission for publishing
Instructions for the author
Date
2010
Major/Subject
Vuorovaikutteinen digitaalinen media
Mcode
T-111
Degree programme
Language
fi
Pages
65 +[6]
Series
Abstract
In modern global business environment, remote conferencing is required to stay in touch and collaborate despite a long distance between co-workers. Tele- and videoconferences are commonly used and virtual environments located in the internet are becoming popular, even though in teleconferences there is no visual feedback, videoconferences require expensive bandwidth and virtual worlds lack natural interaction. Augmented reality environments offer an interesting alternative to remote conferencing combining the pros of other systems. In partly virtual environments it is also possible to transmit only communicationally relevant information of the user to other participants thus improving application's usability and security. This thesis describes a method of recognizing conference situation gestures from video and applying recognized gestures to a Second Life avatar. The work was done as a part of a joint effort between VTT and TKK to develop a mixed reality conferencing application. In this thesis the gesture recognition concentrates on upper body and head gestures. Recognition is done in real-time from monocular video without markers added to the user or to the environment. Head gestures are recognized by locating the user's face from the video and following its movement. Upper body gestures are recognized by segmenting the user's body from the background, locating the user's hands and following their movement. Second Life avatar movement is controlled by pre-recorded animations that are triggered when a gesture is recognized. The gestures recognized in this thesis are head nodding, head shaking, hand waving and a celebration gesture. The application runs in real-time and according to preliminary tests detects well clearly carried out gestures. Avatar animations convey user's gestures recognizably, even though it is not possible to copy user's exact movements in Second Life. Gesture recognition will be improved and new features will be added to the mixed reality conferencing application after finishing this thesis until the end of the project.

Nykypäivän globaalissa yritysmaailmassa yhteydenpito yhteistyökumppaneihin edellyttää etäneuvottelutekniikoiden käyttöä. Puhelin- ja videoneuvottelut sekä internetin virtuaaliympäristöt ovat yleisesti käytettyjä menetelmiä, mutta puhelinyhteys rajoittuu ääneen, videon käyttö edellyttää kallista tietoliikenneyhteyttä ja virtuaaliympäristössä ei ole mahdollisuutta luonnolliselle vuorovaikutukselle. Näiden ympäristöjen hyvät puolet voidaan yhdistää lisätyn todellisuuden ympäristöön sijoittuvissa neuvotteluissa. Osittain virtuaalisessa ympäristössä voidaan myös välittää käyttäjästä vain viestinnän kannalta oleellista informaatiota ja näin parantaa käyttäjän yksityisyyden suojaa ja sovelluksen käyttömukavuutta. Tässä diplomityössä on esitetty menetelmä, jolla tunnistetaan kokoustilanteessa käytettyjä eleitä videokuvasta ja siirretään ne avatarin liikkeiksi Seeond Life -ympäristöön. Työ on osa VTT:llä ja TKK:lla kehitettävää tehostetun todellisuuden konferenssisovellusta. Diplomityössä eleiden tunnistamisessa on keskitytty yläruumiin ja pään eleiden tunnistamiseen. Tunnistaminen on toteutettu reaaliaikaisesti yhdellä kameralla kuvattavasta videosyötteestä ilman käyttäjään tai ympäristöön kiinnitettäviä markkereita. Pään eleet on tunnistettu paikallistamalla käyttäjän kasvot kuvasta ja seuraamalla niiden liikettä. Yläruumiin eleet on tunnistettu segmentoimalla yläruumis taustasta, paikallistamalla käsien sijainti ja seuraamalla niiden liikettä. Avatarin hallinta on toteutettu etukäteen nauhoitetuilla animaatioilla, joiden toistaminen käynnistetään eleitä tunnistettaessa. Työssä tunnistetut pään eleet ovat nyökkäys ja pudistus, ja yläruumiin eleet ovat vilkutus kummallakin kädellä erikseen ja kahden käden juhlintaele. Sovellus toimii reaaliaikaisesti ja alustavien testien mukaan tunnistaa selkeästi tehdyt eleet hyvin. Animaatioilla pystytään välittämään käyttäjän eleet tunnistettavasti, vaikka Second Life -ympäristö ei mahdollista käyttäjän eleiden reaaliaikaista kopioimista. Tunnistuksen luotettavuuden parantamista ja uusien ominaisuuksien kehittämistä jatketaan diplomityön valmistuessa kesken olleen konferenssisovelluksen kehitysprojektin loppuun asti.
Description
Supervisor
Takala, Tapio
Thesis advisor
Kantonen, Tuomas
Keywords
gesture recognition, eleiden tunnistus, markerless, markkeriton, Second Life, avatar
Other note
Citation