Systems and Methods for Multiple-View and Depth-Based People Tracking and Human-Computer Interaction
Loading...
URL
Journal Title
Journal ISSN
Volume Title
School of Science |
Doctoral thesis (article-based)
| Defence date: 2024-04-27
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2024
Major/Subject
Mcode
Degree programme
Language
en
Pages
77 + app. 75
Series
Aalto University publication series DOCTORAL THESES, 88/2024
Abstract
This thesis presents systems and methods for real-time multiple-view and depth-based optical tracking for specific human-computer interaction and smart environment applications. Multiple-view systems are used for mitigating occlusions, enhancing tracking precision and accuracy, and extending the tracking volume to encompass larger scales. Depth cameras, on the other hand, offer the advantage of directly providing three-dimensional information from the scene, which makes them particularly appealing for spatial analysis. For multi-touch interaction, we developed a tracking approach that utilizes multiple side-view cameras to transform any flat surface into a multi-touch screen. Instead of explicitly triangulating the touch points, we employed an extended Kalman filter-based method in which the states of the touch points are updated whenever an observation is received from any of the cameras, ensuring low latency and rapid update rates. To position the cameras as close to the screen as possible, we employed fisheye lenses with modified distortion model, and explored the optimal camera configuration for achieving robust tracking with varying numbers of cameras and touch points. Accurate intrinsic and extrinsic calibration of cameras and camera systems is essential for optimal data fusion and state estimation. Typically, calibration procedures are carried out manually, which is not only time-consuming but can also be impractical. To address this issue in multiple-view depth camera-based people tracking systems, we have developed an auto-calibration method that directly derives the camera network topology and sensor calibration parameters from observations. Additionally, to account for the uncertainties in the observations during state estimation and data fusion, we developed a measurement noise model as part of the auto-calibration procedure. In mixed reality, the aim of camera pose estimation and tracking is to align the real and virtual environments in real-time and in all three dimensions. To achieve this goal, we developed a computer-aided design model-based depth camera tracking approach that utilizes a fast graphics processing unit-based iterative closest point method for pose estimation. This method can be applied to various objects, as long as a depth map from the object can be generated from the desired viewpoint. We conducted investigations into the applicability and performance of the method with different targets and concluded that the proposed approach exhibits reduced drift compared to simultaneous localization and mapping-based method and outperforms monocular edge-based method in terms of accuracy.Tässä väitöskirjatyössä kehitettiin syvyyskameroihin ja useiden kameroiden hyödyntämiseen perustuvia konenäön järjestelmiä ja menetelmiä sovellettavaksi ihmisen ja tietokoneen välisessä vuorovaikutuksessa sekä älykkäissä ympäristöissä. Useiden kameroiden järjestelmiä käytetään kohteiden seurannassa tyypillisesti tarkkuuden ja luotettavuuden parantamiseksi sekä seuranta-alueen laajentamiseksi. Syvyyskamerat puolestaan tuottavat havaintoja suoraan kolmessa ulottuvuudessa, mikä tekee niistä houkuttelevia mainittujen sovellusten kannalta. Monikosketusnäytöt tarjoavat intuitiivisen tavan ihmisen ja tietokoneen väliseen vuorovaikutukseen. Tätä varten kehitettiin menetelmä, jossa hyödynnetään useita näytön reunoille sijoitettuja kameroita, mahdollistaen minkä tahansa näytön muuttamisen monikosketusnäytöksi. Kosketuspisteiden paikan estimointiin käytetään laajennettua Kalman-suodatusta, jossa kosketuspisteiden paikka- ja nopeustiedot päivitetään aina, kun kosketushavainto saadaan mistä tahansa kamerasta. Tämän ansiosta saavutettiin järjestelmän korkea päivitysnopeus ja pieni latenssi. Työssä tutkittiin myös erilaisia kamerakonfiguraatioita järjestelmän tarkan ja luotettavan toiminnan saavuttamiseksi. Kameroiden ja kamerajärjestelmien parametrien kalibrointi on välttämätön toimenpide havaintojen optimaalisen yhdistämisen ja seurattavien kohteiden tilan estimoinnin kannalta. Tyypillisesti kalibrointiin liittyvät toimenpiteet suoritetaan manuaalisesti, mikä on aikaa vievää ja epäkäytännöllistä. Tämän välttämiseksi työssä kehitettiin syvyyskameroihin perustuvan ihmisten seurantajärjestelmän automaattinen kalibrointimenetelmä. Menetelmän avulla voidaan määrittää kameraverkon topologia ja kameroiden kuvantamisprosessiin liittyvät parametrit suoraan niiden tuottamista havainnoista. Lisäksi työssä kehitettiin menetelmä havaintoihin liittyvien mittausepävarmuuksien automaattista määrittämistä varten. Yhdistetyssä todellisuudessa kameran paikan ja asennon estimoinnin tavoitteena on kohdistaa reaali- ja virtuaaliympäristöt toisiinsa reaaliaikaisesti ja kaikissa kolmessa ulottuvuudessa. Tavoitteen saavuttamiseksi työssä kehitettiin CAD-mallien (computer-aided design) käyttöön perustuva syvyyskameran paikan ja asennon estimointimenetelmä, jossa hyödynnetään nopeaa grafiikkasuoritinta hyödyntävää laskentaa. Menetelmä on sovellettavissa moniin erilaisiin objekteihin, ja sen käytön ainoana edellytyksenä on, että kohteesta voidaan luoda syvyyskartta halutusta katselusuunnasta. Työssä myös verrattiin menetelmän suorituskykyä syvyyskameraa hyödyntävään SLAM-pohjaiseen (simultaneous localization and mapping) menetelmään sekä tavanomaista kameraa hyödyntävään mallipohjaiseen menetelmään.Description
Supervising professor
Kannala, Juho, Prof. Aalto University, Department of Computer Science, Finland; Takala, Tapio, Prof. Emer., Aalto University, Department of Computer Science, FinlandThesis advisor
Takala, Tapio, Prof. Emer., Aalto University, Department of Computer Science, FinlandKeywords
depth cameras, multiple-view systems, people tracking, camera pose estimation, multi-touch systems, mixed reality, syvyyskamerat, monikamerajärjestelmät, ihmisten seuranta, kameran paikan ja asennon estimointi, monikosketusnäytöt, yhdistetty todellisuus
Other note
Parts
-
[Publication 1]: Otto Korkalo and Petri Honkamaa. Construction and Evaluation of Multi-Touch Screens Using Multiple Cameras Located on the Side of the Display. In ACM International Conference on Interactive Tabletops and Surfaces, Saarbrücken, Germany, pp. 83–90, November 2010.
DOI: 10.1145/1936652.1936667 View at publisher
-
[Publication 2]: Otto Korkalo, Tommi Tikkanen, Paul Kemppi and Petri Honkamaa. Auto-Calibration of Depth Camera Networks for People Tracking. Machine Vision and Applications, 30(4):671–688, 2019.
DOI: 10.1007/s00138-019-01021-z View at publisher
-
[Publication 3]: Otto Korkalo and Tapio Takala. Measurement Noise Model for Depth Camera-Based People Tracking. Sensors, 21(13):4488, 2021.
Full text in Acris/Aaltodoc: https://urn.fi/URN:NBN:fi:aalto-202108048081DOI: 10.3390/s21134488 View at publisher
-
[Publication 4]: Otto Korkalo and Svenja Kahn. Real-time Depth Camera Tracking with CAD Models and ICP. Journal of Virtual Reality and Broadcasting, 13(2016):1, 2016.
DOI: 10.20385/1860-2037/13.2016.1 View at publisher