Vision-language-action models for humanoid robots in elderly care applications

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Electrical Engineering | Bachelor's thesis

Department

Mcode

Language

en

Pages

30

Series

Abstract

This thesis explores Vision-Language-Action models and their potential applications in humanoid robots designed for elderly care. The study reviews how multimodal learning, large language models, and embodied AI contribute to natural and adaptive human-robot interaction. The research is based on a comprehensive literature review focusing on integration methods, training approaches such as imitation and reinforcement learning, and ethical considerations. The findings highlight that VLA-based humanoids can enable more personalized and intuitive interaction, potentially alleviating future labor shortages in elderly care. However, challenges remain regarding data requirements, computational costs, and societal acceptance.

Globaali väestö ikääntyy ja työikäisen väestön kehitys on kääntynyt jo selvään laskuun monissa kehittyneissä maissa. Syntyvyyden lasku tulee johtamaan siihen, että tulevaisuudessa on yhä vähemmän hoivatyöntekijöitä tarjolla, mutta samalla yhä enemmän vanhuksia hoidettavana. Se luo painetta hyvinvointivaltioiden terveysjärjestelmille toimia asianmukaisesti. Kuitenkin robotiikka ja tekoäly luovat jatkuvasti uusia mahdollisuuksia näihin ongelmiin, minkä vuoksi tämä kandidaatintyö tarkastelee erityisten näkö-kieli-toiminto (engl. Vision-Language-Action, VLA) mallien käyttöä osana humanoidirobotteja vanhustenhoidossa. Työ toteutettiin kirjallisuuskatsauksena ilman omaa erillistä kokeellista osaa. Tutkimus on rajattu käsittelemään humanoideja, mutta vähäisen kirjallisuuden vuoksi myös muita avustavia robotteja ja laitteita kuten eksoskeletoneita on käytetty tutkielman tukena. Työssä syvennytään tarkemmin kahteen vanhustenhoidon käyttötapaukseen: kognitiiviseen ja sosiaalisen tukeen sekä liikkumisen avustamiseen ja kaatumisen ehkäisyyn. Tärkeimmät lähdeviitteet on rajattu viimeisen viiden vuoden ajalle, sillä tekoälymallien ja humanoidirobottien ripeä kehitys tekee monista julkaisuista nopeasti vanhentuneita. Työn päätavoitteena on tuoda ilmi sitä, millaisia mahdollisuuksia ja haasteita VLA-mallien käyttö tarjoaa humanoideissa osana vanhustenhoitoa. Samalla halutaan luoda tietoisuutta siitä, että humanoidirobottien integrointi ja valtavirtaistuminen osaksi yhteiskuntaa on lähempänä kuin yleisesti saatetaan luulla. Tutkimus osoittaa, että VLA-mallit mahdollistavat humanoidien kyvyn sopeutua ja toimia autonomisesti muuttuvissa ympäristöissä. Tämä johtuu kyseisten mallien kyvystä ymmärtää kokonaisuuksia yhdistämällä visuaalisia näköhavaintoja ja verbaalisia ohjeita toimintojen toteuttamiseksi. Robotit eivät ole siis enää riippuvaisia ennalta laadituista ohjelmista, vaan pystyvät mukautumaan käyttäjän mieltymyksiin. Näin ollen ne mahdollistavat tarkkaan räätälöidyn hoivan juuri kyseisen henkilön tarpeisiin ja edistävät vanhusten itsenäistä asumista kotona pidempään. Tutkielman perusteella voitiin lisäksi päätellä, että puheeseen perustuvat VLA-mallit ovat avain intuitiivisen vuorovaikutuksen luomisessa robotin ja ihmisen välille. Haasteita on kuitenkin edelleen monia, eivätkä nämä humanoidit vielä ole valmiita täysin autonomiseen toimintaan oikean elämän ympäristöissä. Yksi keskeisimmistä haasteista liittyy erityisesti suureen datan ja laskentatehon tarpeeseen, joita robotit tarvitsevat koulutuksessa sekä toiminnassa. Työssä esitellään kuitenkin simulaatiopohjaisia koulutusalustoja, jotka merkittävästi nopeuttavat robottien kouluttamista ja samalla vastaavat haasteeseen datan niukkuudesta. Muut haasteet liittyvät pääasiassa turvallisuuteen, luotettavuuteen ja eettisiin kysymyksiin, joita herää, kun puhumme työssä käsitellystä uudenlaisesta teknologiasta. Työn pohjalta voidaan päätellä, että mikäli humanoidirobotit onnistutaan integroimaan sujuvasti osaksi yhteiskuntia, niiden tarjoamat mahdollisuudet ovat haasteita huomattavasti suuremmat. Joka tapauksessa lisää tutkimusta humanoidien käytöstä terveydenhuollon sovelluksissa tarvitaan, jotta voidaan tehdä luotettavia johtopäätöksiä.

Description

Supervisor

Forsman, Pekka

Thesis advisor

Gorad, Ajinkya

Other note

Citation