Fine-tuning open-source large language models for processing open-vocabulary commands for robotic navigation

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Electrical Engineering | Master's thesis

Department

Mcode

Language

en

Pages

52

Series

Abstract

This thesis investigates using fine-tuned open-source Large Language Models (LLMs) for interpreting open-vocabulary commands for robotic navigation tasks. In this study, this means retrieving objects from scene graphs based on freeform language instructions. This thesis seeks to address the following research questions: To what extent are open-source LLMs suitable for open-vocabulary tasks? How does model size influence performance? How effective are fine-tuned models when compared to their original, unmodified counterparts? For this study, four different sized LLMs distilled from DeepSeek-R1 model were chosen. These chosen models were then fine-tuned on a training set created from data selected from VLA-3D dataset collection. During the fine-tuning process, a hyperparameter search was conducted. The best fine-tuned models for each size were then tested on another set created from VLA-3D dataset collection and statements from ViGiL3D-dataset. It was observed that fine-tuned models improve significantly on statements that follow the style of statements included in VLA-3D dataset collection. When tested on more free-form statements from ViGiL3D-dataset, the improvements were less drastic but still notable. The results indicate that open-source LLMs can be used in the task presented in this thesis. The fine-tuned models achieved better results compared to the original models. It was also observed that in some cases smaller model could outperform bigger model.

Tämä työ tutkii hienosäädettyjen avoimen lähdekoodin suurten kielimallien (Large Language Models) käyttöä robottinavigointitehtävissä, joissa komentoina käytetään avointa kieltä. Tämän tutkimuksen kontekstissa tämä tarkoittaa esineiden hakemista tilaverkosta (Scene Graph) vaapaamuotoisten ohjeiden perusteella. Tämä työ pyrkii vastaamaan seuraaviin kysymyksiin: Missä määrin avoimen lähdekoodin suuret kielimallit soveltuvat avoimen sanaston tehtäviin? Kuinka paljon kielimallien koot vaikuttavat niiden tehokkuuteen? Kuinka tehokkaita hienosäädetyt mallit ovat alkuperäisiin malleihin verrattuna? Tässä tutkimuksessa valittiin neljä erikokoista kielimallia, jotka ovat tislattu DeepSeek-R1-mallista. Nämä valitut mallit hienosäädettiin VLA-3D aineistokokoelmasta saadulla koulutusdatalla. Hienosäädön aikana suoritettiin hyperparametrihaku oppimisnopeudelle. Parhaiten hienosäädetyt mallit kustakin eri koosta testattiin erillisellä testidatalla, joka oli muodostettu VLA-3D-aineistosta sekä erillisistä ViGiL3D-aineiston vapaamuotoisista ohjeista. Tutkimuksessa havaitsimme, että hienosäädetyt mallit paransivat merkittävästi suoriutumistaan ohjeissa, jotka noudattavat VLA-3D-aineiston ohjeiden tyyliä. Sen sijaan, kun malleja testattiin vapaamuotoisemmilla ViGiL3D-aineiston ohjeilla, parannukset eivät olleet yhtä merkittäviä, mutta silti huomionarvoisia. Tuloksista pystyttiin päättelemään, että avoimen lähdekoodin kielimalleja voidaan käyttää tässä työssä esitetyssä tehtävässä. Hienosäädetyt mallit osoittivat parempaa suorituskykyä alkuperäisiin malleihin verrattuna. Tuloksista voitiin myös huomata, että joissain tilanteissa pienemmät kielimallit suorituivat paremmin kuin suuremmat mallit.

Description

Supervisor

Kyrki, Ville

Thesis advisor

Mihaylova, Tsvetomila
Verdoja, Francesco

Other note

Citation