Integrating Large Language Models into PDDL-Based Robot Task and Motion Planning

No Thumbnail Available

Files

URL

Journal Title

Journal ISSN

Volume Title

Sähkötekniikan korkeakoulu | Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.

Date

2024-05-25

Department

Major/Subject

Automaatio ja robotiikka

Mcode

ELEC3014

Degree programme

Sähkötekniikan kandidaattiohjelma

Language

en

Pages

35

Series

Abstract

Recent advancements in generative large language models provide capabilities to automate and streamline existing frameworks across the field of technology. In robotics, these capabilities have been utilized to translate natural language commands to robot planning languages, solve task and motion planning problems, and evaluate the developed plans. This bachelor’s thesis is a literature review. Thesis objective is to compare the established theory and practical implementations of large language model (LLM) integration into planning domain definition language-based (PDDL) task and motion planning (TAMP) frameworks. The research utilized 5 sources for LLM integration and 34 sources for the established theory. Arxiv.org is the predominantly used database. The compared characteristics include different prompting methods, such as few-shot, zero-shot, and chain-of-thought, the applicability to real-world situations, and different LLM integration methods, such as independent planner, planning assistance, and plan evaluation. Additionally, classical planners and their role in planning are considered. Classical planners assume the planning situations is fully known. Few-shot approach provides the LLM with practical examples, presenting for example the parts of the solution, and how the solution can be formed. Chain-of-thought divides the LLMs thinking process into small logical steps. The key findings conclude that few-shot prompting combined with chain-of-thought is the preferred prompting method. Large language models can be utilized to assist the classical planners in task and motion planning problems. Additionally, large language models are suitable for natural language translation into PDDL. If one has access to external validators, the LLMs could even function as semi-independent planners. However, currently this application is very rarely implemented. The future research should focus on assessing whether LLMs can develop and evaluate TAMP plans. In addition, the testing methods should be standardized across the different scopes of LLM enhanced planning, such as open-world and long-term planning.

Generatiivisten laajojen kielimallien kehitys on inspiroinut tutkijoita tarkastelemaan niiden sovelluksia tekniikan alalla. Laajat kielimallit pystyvät muun muassa ohjelmoimaan, päättelemään maalaisjärjellä ja tuottamaan sekä analysoimaan erilaisia kirjoitettuja tekstejä. Robotiikassa näitä taitoja on hyödynnetty esimerkiksi ihmisten käyttämän kielen kääntämiseen robotin suunnittelukielille, ratkaisemaan robotin työn- ja liikkeensuunnittelun ongelmia sekä arvioimaan kehitettyjä suunnitelmia. Tämän kandidaatintyö on tyypiltään kirjallisuustutkimus. Työn tavoite on vertailla kehitettyä teoriaa ja luotuja käytännön toteutuksia laajojen kielimallien integroimisesta planning domain definition language (PDDL) pohjaiseen robotin työn- ja liikkeensuunnitteluun. Työssä vertaillaan suppeampia kirjallisuuslähteitä kokonaisvaltaisempiin malleihin. Keskeisiä vertailtavia tekijöitä ovat esimerkiksi few-shot prompt, chain-of-thought, ulkoiset varmentajat, luonnollisen kielen käsitteleminen ja laajojen kielimallin hyödyntämisen menetelmät. Few-shot promt auttaa laajaa kielimallia hahmottamaan esimerkkien kautta, mistä tilanteessa on kyse. Chain-of-thought vaatii laajaa kielimallia esittämään lopputuloksen osissa askel askeleelta, jotta vastausta olisi helpompi käyttää esimerkiksi robotin työn- ja liikkeensuunnittelemisessa. Tutkimuksen perusteella few-shot prompt ja chain-of-thought ovat hyväksi todettuja ja paljon sovellettuja menetelmiä laajojen kielimallien sovelluksissa robotiikassa. Laajoja kielimalleja käytetään merkittävästi auttamaan perinteisiä robotin työn- ja liikkensuunnittelijoita. Lisäksi laajat kielimallit soveltuvat luonnollisen kielen kääntämiseen esimerkiksi PDDL-muotoon. Laajoja kielimalleja voisi myös käyttää itsenäisinä suunnittelijoina, mikäli on mahdollista hyödyntää ulkoisia varmentajia. Tämä on kuitenkin toistaiseksi harvinaista. Lisää tutkimusta tarvitaan selvittämään laajojen kielimallien kykyä suunnitella ja korjata kehitettyjä suunnitelmia. Lisäksi yhtenäisen testausjoukon kehittäminen helpottaisi eri mallien vertailemista.

Description

Supervisor

Forsman, Pekka

Thesis advisor

Shintemirov, Almas

Keywords

LLM, PDDL, TAMP

Other note

Citation