aalto1 untyped-item.component.html

Foundation models in robotic manipulation

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Electrical Engineering | Bachelor's thesis

Department

Mcode

Language

en

Pages

40

Series

Abstract

This thesis reviews the emergence and development of foundation models for robotic manipulation, with a particular focus on Vision-Language-Action (VLA) models. The review traces the progression from classical preprogrammed robotic control and early learning-based approaches to the current VLA paradigm, in which perception, language understanding, and action generation are unified within a single transformer-based architecture. Two dominant approaches to action generation are examined: discrete tokenization, which treats robot actions as language tokens, and continuous generation via diffusion or flow matching. Key models including RT-2, Octo, OpenVLA, π0, GR00T N1, and Gemini Robotics are analyzed and compared in terms of their architectures, training strategies, and capabilities. The thesis also examines the critical role of training data, highlighting the scarcity and fragmentation of real-world robot demonstrations and the emerging strategies, such as simulation-based trajectory generation and data augmentation, developed to address this bottleneck. Finally, several open problems are identified, including the absence of unified evaluation benchmarks, the challenges of continual learning and sim-to-real transfer, the integration of sensory modalities beyond vision, safety in human-centric environments, and the privacy implications of deploying cloud-dependent VLA models in private spaces. The review finds that while VLA models represent a significant step toward general-purpose robotic manipulation, substantial challenges in data, evaluation, safety, and privacy must be addressed before reliable real-world deployment becomes feasible.

Tämä kandidaatintyö tarkastelee perusmallien (foundation models) kehitystä robottien manipulaatiotehtävissä, keskittyen erityisesti Vision-Language-Action (VLA) -malleihin. Katsaus seuraa kehityskulkua klassisesta, ennalta ohjelmoidusta robottien ohjauksesta ja varhaisista oppimispohjaisista lähestymistavoista nykyisiin VLA-malleihin, joissa toimintaympäristön havaitseminen, kielen ymmärtäminen ja toimintaohjeiden tuottaminen yhdistyvät yhteen transformer-pohjaiseen arkkitehtuuriin. Työssä tarkastellaan kahta hallitsevaa lähestymistapaa toimintojen generointiin: diskreettiä tokenisointia, joka käsittelee robotin toimintoja kielitokeneina, sekä jatkuvaa generointia diffuusio- tai flow matching- menetelmien avulla. Keskeisiä malleja, kuten RT-2, Octo, OpenVLA, π0, GR00T N1 ja Gemini Robotics, analysoidaan ja vertaillaan niiden arkkitehtuurien, koulutusmenetelmien ja kyvykkyyksien osalta. Työ tarkastelee myös koulutusdatan kriittistä roolia, korostaen tosielämän robottidemonstraatioiden niukkuutta ja hajanaisuutta sekä uusia strategioita, kuten simulaatiopohjaista liikeratojen generointia ja data-augmentaatiota, joita on kehitetty tämän pullonkaulan ratkaisemiseksi. Lopuksi tunnistetaan useita avoimia ongelmia, mukaan lukien VLA-mallien yhtenäisten arviointikriteerien puuttuminen, jatkuvan oppimisen ja simulaatiosta todellisuuteen siirtymisen haasteet, näön ulkopuolisten aistikanavien integrointi, turvallisuus ihmiskeskeisissä ympäristöissä sekä pilvipohjaisten VLA-mallien yksityisyysvaikutukset yksityisissä tiloissa. Katsauksen perusteella VLA-mallit edustavat merkittävää askelta kohti yleiskäyttöisiä robottimanipulaatiomalleja, mutta huomattavia haasteita liittyen koulutusdatan saatavuuteen, mallien arviointiin, turvallisuuteen ja yksityisyydensuojaan on vielä ratkaisematta.

Description

Supervisor

Forsman, Pekka

Thesis advisor

Hannus, Eric

Other note

Citation

Endorsement

Review

Supplemented By

Referenced By