Vision-Language Models for Trajectory Prediction

No Thumbnail Available

Files

URL

Journal Title

Journal ISSN

Volume Title

Sähkötekniikan korkeakoulu | Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.

Date

2024-05-07

Department

Major/Subject

Automaatio ja robotiikka

Mcode

ELEC3014

Degree programme

Sähkötekniikan kandidaattiohjelma

Language

en

Pages

5+25

Series

Abstract

Achieving safe autonomous driving requires accurate trajectory prediction. Therecent advancements in vision-language models (VLM) could address the existing limitations in autonomous vehicle systems such as edge cases, limited generalization capabilities, and a lack of explainability. This literature review introduces visionlanguage models, presents nine state-of-the-art VLMs, and evaluates them either qualitatively or quantitatively on the task of trajectory prediction. While the various VLMs each possess unique characteristics, they share a common feature: all utilize large language models (LLMs) as the core intelligence behind their autonomous vehicle systems. The study suggests that VLMs successfully perform the task of trajectory prediction in simulated environments, they outperform other methods such as classical machine learning methods, owing to their capability for generalization. However, real-world application is still not deemed safe due to the existing limitations of large language models. Real-world application would require LLMs to become significantly faster while also addressing the hallucination problem.

För att uppnå säker och effektiv autonom körning krävs det att man noggrant kan förutse fordonets trajektoria. Nuvarande metoder inom autonom körning har en begränsad generaliseringsförmåga och har därmed svårt att hantera ovanliga situationer. I nuläget är det dessutom svårt för föraren att få en insyn i det autonoma fordonets logiska härledning. De senaste framstegen inom vision-språkmodeller möjliggör reducering av de befintliga begränsningarna inom autonom körning. I den här litteraturstudien presenteras förutseende av trajektorier, som är en viktig aspekt inom autonom körning. Förutseende av trajektorier säkerställer att fordon tryggt kan nå sin destination. Utöver det introduceras vision-språkmodeller och nio toppmoderna vision-språkmodeller utvärderas antingen kvalitativt eller kvantitativt på basis av hur bra de kan förutse trajektorier. I och med att användandet av visionspråkmodeller inom autonom körning är ett nytt område så är det viktigt att sammanfatta de nyaste modellerna och bedöma dem på basis av hur bra de presterar och om det går att tillämpa dem i verkligheten. De olika modellerna skiljer sig från varandra. Deras inputs varierar från videor till text, och de har alla olika huvudsakliga ändamål. Dock så har de alla en gemensam egenskap. De använder stora språkmodeller, såsom OpenAIs ChatGPT som fordonets hjärna. Fastän de flesta modellerna har ett annat huvudsakligt ändamål än förutseende av trajektorier, så är det viktigt att de klarar av att säkert förutse trajektorier. Resultaten tyder på att visionspråkmodeller presterar bättre än äldre metoder, såsom klassiska maskininlärningsmetoder. De har i teoretiska och simulerade omgivningar klarat av att säkert nå den önskade destinationen. Användning av vision-språkmodeller har i diverse experiment lett till färre kollisioner i svåra fall såsom nödsituationer. Det här beror på deras exceptionella förmåga att generalisera, de använder stora språkmodeller för att härma människans förnuft. Dock så anses tillämpning i verkligheten inte ännu vara säker på grund av de befintliga begränsningarna hos stora språkmodeller. Stora språkmodeller kan hallucinera, vilket innebär att de kan ge falsk information. Det här är en stor farorisk. Felmarginalen inom autonom körning är betydligt mindre än hos chatbottar. Det tar flera sekunder för stora språkmodeller att generera ett svar, det här är en för lång period för att tillämpning i verkligheten ska vara möjlig. För att tillämpa dem i verkligheten så krävs det att stora språkmodeller blir betydligt snabbare och att hallucinationsproblemet löses.

Description

Supervisor

Forsman, Pekka

Thesis advisor

Munir, Farzeen

Keywords

autonomous vehicle, vision-language models, deep learning, trajectory prediction

Other note

Citation