LLM-mediated natural language instructions for robotic manipulation

Loading...
Thumbnail Image

Files

URL

Journal Title

Journal ISSN

Volume Title

Sähkötekniikan korkeakoulu | Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.

Department

Mcode

ELEC3014

Language

en

Pages

26

Series

Abstract

Fueled by advancements in artificial intelligence, robots are becoming more integral in various sectors and subsequently more integrated in society. The trend raises the need for seamless human-robot communication, even for non-experts. Human-robot communication has previously mainly been reserved for experts in the field. While physical interaction methods have been explored, natural language communication stands out for its intuitiveness, encompassing diverse interactions. Recent research has shown promise in utilizing Large Language Models (LLMs) for instructing robotic manipulation tasks in natural language. This thesis explores the potential of this emerging method of using LLMs to mediate instructions in natural language for robotic manipulation. Four key research questions guide this investigation: understanding robotic manipulation and its challenges, exploring recent implementations of LLMs in robotic manipulation, evaluating the complexity of instructions used and methods of evaluation, and identifying open issues in the implementations. The research is done as a literature review, building on previous scientific literature. The examined implementations are SayCan, Inner Monologue, PaLM-E, and Robotic Transformer 2 (RT-2). The literature review first gives an overview on the background of robotic manipulation and LLMs. Then it shows that LLMs do have promising potential in mediating instructions in natural language for robotic manipulation, having performed well on task requiring generalization and long-horizon reasoning in the implementations. However, challenges such as high computational costs, data quality reliance, and skill limitations were also identified. Lack of standardization in evaluation methods and result comparisons of the implementations also surfaced as significant issues, providing a direction for future research.

Tack vare framsteg inom artificiell intelligens har robotar blivit allt mer integrerade i olika sektorer och därmed också i samhället. Trenden ökar behovet av smidig kommunikation mellan människa och robot, även för icke-experter. Kommunikation mellan människa och robot har historiskt främst varit förbehållen experter inom robotik. Även om fysiska interaktionsmetoder har utforskats, utmärker sig kommunikation med naturligt språk för sin intuitivitet och sina omfattande interaktioner. Ny forskning har visat lovande resultat i användningen av stora språkmodeller för att instruera robotisk manipulation på naturligt språk. I den här avhandlingen undersöks potentialen av att använda stora språkmodeller för att förmedla instruktioner på naturligt språk för robotisk manipulation. Fyra viktiga forskningsfrågor styr denna undersökning: bakgrunden till robotisk manipulation och dess utmaningar, utforskande av de senaste tillämpningarna av stora språkmodeller i robotisk manipulation, utvärderande av påverkan av komplexiteten i de instruktioner som används, utvärderande av använda utvärderingsmetoder i tillämpningarna och slutligen identifiering av öppna problem i tillämpningarna. Forskningen görs i form av en litteraturstudie som bygger på tidigare vetenskaplig litteratur. De tillämpningar som undersöks är SayCan, Inner Monologue, PaLM-E och Robotic Transformer 2 (RT-2). Litteraturstudien ger en översikt över bakgrunden till robotisk manipulation och stora språkmodeller. Dessutom ger studien en indikation på att stora språkmodeller har en lovande potential när det gäller att förmedla instruktioner på naturligt språk för robotisk manipulation. Tillämpningarna klarade sig bra i uppgifter som krävde generalisering och resonemang med lång horisont. Utmaningar som höga beräkningskostnader, beroende av hög datakvalitet och begränsningar på grund av tränade robotfärdigheter identifierades dock också. Brister i standardiseringen av utvärderingsmetoder av tillämpningarna framstod också som ett signifikant problem, vilket kunde vara en riktning för framtida forskning.

Description

Supervisor

Forsman, Pekka

Thesis advisor

Mihaylova, Tsvetomila

Other note

Citation