Learned representations in tactile reinforcement learning

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Electrical Engineering | Master's thesis

Department

Mcode

Language

en

Pages

59

Series

Abstract

Vision-based tactile sensors have become a powerful tool in robotic manipulation, providing high-resolution images that help robots respond to subtle haptic cues in contact-rich tasks. However, the high dimensionality of tactile images, along with the sparsity features—or the lack thereof—poses challenges for Reinforcement Learning (RL), which benefits from compact representations that preserve critical information. A key challenge in utilizing tactile images in RL is the absence of a universal standard for representing touch. As a result, existing approaches typically learn task-specific features, limiting their generalizability and requiring re-engineering when switching tasks. This thesis explores whether existing self-supervised learning (SSL) techniques can learn work in providing general tactile representations that are effective in an RL setting. To investigate this, a framework is proposed that utilizes pre-trained SSL models that leverage four different techniques to learn features from a large set of unlabeled tactile images. These models are used in an RL setting to explore balancing a pole on top of a tactile sensor. The framework is further supported by a privileged information dropout strategy—conceptually similar to training wheels—which provides additional guidance early in training and is gradually removed to promote independent learning. Experiments are conducted in the TACTO simulator using both DIGIT and Omnitact sensors. The results confirm the compatibility of Sparsh representations for RL and show that the choice of the SSL method greatly affects policy learning. Specifically, DINO performs best with DIGIT, while IJEPA is more suitable for Omnitact. In contrast, MAE fails to produce learnable representations in this context, and VJEPA’s representations, although learnable, are poorly suited to the task. The privileged information dropout strategy yields small improvements for weaker models but harms stronger ones. Additionally, the naive, fixed dropout schedule is found not to fit with the training, suggesting the need for adaptive strategies that tailor the scheduling to the learning progress of individual models. Overall, this thesis demonstrates the potential of SSL to provide general tactile representations for RL. It also highlights the relevance of SSL method selection, sensor domain considerations, and learning strategies to advance tactile-RL.

Visuaalisten kosketusanturien avulla toimivat robotit ovat osoittautuneet tehokkaiksi näppäryyden saavuttamisessa. Kyseiset anturit tarjoavat korkearesoluutioisia kuvia, joiden avulla robotit voivat reagoida hienovaraisiin mutta ratkaiseviin tuntovihjeisiin. Koska vahvistusoppiminen on vakiintunut menetelmä haastavien tehtävien ratkaisuun robotiikassa, tuntoaistidatan suuri resoluutio ja olennaisten piirteiden harvalukuisuus edellyttävät datan tiivistämistä oppimisen kannalta olennaisen tiedon mukaiseksi. Kosketusaistin keskeinen haaste robotiikassa on yleispätevän määritelmän puute. Nykyiset menetelmät ovat usein tehtäväkohtaisia, mikä heikentää niiden yleistettävyyttä ja vaatii uudelleensuunnittelua tehtävien vaihtuessa. Tässä työssä tutkitaan, voivatko itseohjautuvat (self-supervised) oppimismenetelmät (SSL) oppia tunnon tehtäväriippumattomia piirteitä, jotka soveltuvat vahvistusoppimiseen. Työssä hyödynnetään esikoulutettuja Sparsh-malleja, jotka käyttävät neljää eri SSL-tekniikkaa oppiakseen tunnon piirteitä suurista kuvakokoelmista. Näitä malleja testataan vahvistusoppimisympäristössä pylvään tasapainottamistehtävässä tuntoanturilla. Oppimista tuetaan alkuvaiheessa etuoikeutetulla tiedolla, joka apupyörien tavoin poistetaan vähitellen oppimisen edetessä. Kokeet suoritettiin simulaattorissa DIGIT- ja Omnitact-antureilla. Tulokset osoittavat, että Sparsh on yhteensopiva vahvistusoppimisen kanssa, ja että SSL-menetelmän valinnalla on merkittävä vaikutus oppimiseen. Esimerkiksi DINO suoriutuu parhaiten DIGIT-anturin kanssa, kun taas IJEPA toimii parhaiten Omnitactilla. Sen sijaan VJEPA soveltuvuu tehtävään heikosti ja MAE ei puolestaan kykene edes tuottamaan tarpeeksi tiiviitä esityksiä vahvistusoppimiselle. Etuoikeutetun tiedon asteittainen poistaminen parantaa hieman heikompien mallien oppimista, mutta voi haitata toimivampia malleja. Kiinteä poistamisaikataulu osoittautui riittämättömäksi, mikä viittaa tarpeeseen dynaamisille, oppimiseen mukautuville strategioille. Kaiken kaikkiaan tämä tutkimus osoittaa, että SSL-menetelmillä voidaan oppia yleistettäviä tunnon piirteitä vahvistusoppimista varten. Lisäksi se korostaa SSLtekniikan, anturivalinnan ja oppimisstrategian vaikutusta suoriutumiseen.

Description

Supervisor

Kyrki, Ville

Thesis advisor

Hynninen, Samuli
Nguyen Le, Tran

Other note

Citation