Vision-Language Models for Trajectory Prediction
No Thumbnail Available
Files
Liukkonen_Emil_2024.pdf (1000.39 KB) (opens in new window)
Aalto login required (access for Aalto Staff only).
URL
Journal Title
Journal ISSN
Volume Title
Sähkötekniikan korkeakoulu |
Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2024-05-07
Department
Major/Subject
Automaatio ja robotiikka
Mcode
ELEC3014
Degree programme
Sähkötekniikan kandidaattiohjelma
Language
en
Pages
5+25
Series
Abstract
Achieving safe autonomous driving requires accurate trajectory prediction. Therecent advancements in vision-language models (VLM) could address the existing limitations in autonomous vehicle systems such as edge cases, limited generalization capabilities, and a lack of explainability. This literature review introduces visionlanguage models, presents nine state-of-the-art VLMs, and evaluates them either qualitatively or quantitatively on the task of trajectory prediction. While the various VLMs each possess unique characteristics, they share a common feature: all utilize large language models (LLMs) as the core intelligence behind their autonomous vehicle systems. The study suggests that VLMs successfully perform the task of trajectory prediction in simulated environments, they outperform other methods such as classical machine learning methods, owing to their capability for generalization. However, real-world application is still not deemed safe due to the existing limitations of large language models. Real-world application would require LLMs to become significantly faster while also addressing the hallucination problem.För att uppnå säker och effektiv autonom körning krävs det att man noggrant kan förutse fordonets trajektoria. Nuvarande metoder inom autonom körning har en begränsad generaliseringsförmåga och har därmed svårt att hantera ovanliga situationer. I nuläget är det dessutom svårt för föraren att få en insyn i det autonoma fordonets logiska härledning. De senaste framstegen inom vision-språkmodeller möjliggör reducering av de befintliga begränsningarna inom autonom körning. I den här litteraturstudien presenteras förutseende av trajektorier, som är en viktig aspekt inom autonom körning. Förutseende av trajektorier säkerställer att fordon tryggt kan nå sin destination. Utöver det introduceras vision-språkmodeller och nio toppmoderna vision-språkmodeller utvärderas antingen kvalitativt eller kvantitativt på basis av hur bra de kan förutse trajektorier. I och med att användandet av visionspråkmodeller inom autonom körning är ett nytt område så är det viktigt att sammanfatta de nyaste modellerna och bedöma dem på basis av hur bra de presterar och om det går att tillämpa dem i verkligheten. De olika modellerna skiljer sig från varandra. Deras inputs varierar från videor till text, och de har alla olika huvudsakliga ändamål. Dock så har de alla en gemensam egenskap. De använder stora språkmodeller, såsom OpenAIs ChatGPT som fordonets hjärna. Fastän de flesta modellerna har ett annat huvudsakligt ändamål än förutseende av trajektorier, så är det viktigt att de klarar av att säkert förutse trajektorier. Resultaten tyder på att visionspråkmodeller presterar bättre än äldre metoder, såsom klassiska maskininlärningsmetoder. De har i teoretiska och simulerade omgivningar klarat av att säkert nå den önskade destinationen. Användning av vision-språkmodeller har i diverse experiment lett till färre kollisioner i svåra fall såsom nödsituationer. Det här beror på deras exceptionella förmåga att generalisera, de använder stora språkmodeller för att härma människans förnuft. Dock så anses tillämpning i verkligheten inte ännu vara säker på grund av de befintliga begränsningarna hos stora språkmodeller. Stora språkmodeller kan hallucinera, vilket innebär att de kan ge falsk information. Det här är en stor farorisk. Felmarginalen inom autonom körning är betydligt mindre än hos chatbottar. Det tar flera sekunder för stora språkmodeller att generera ett svar, det här är en för lång period för att tillämpning i verkligheten ska vara möjlig. För att tillämpa dem i verkligheten så krävs det att stora språkmodeller blir betydligt snabbare och att hallucinationsproblemet löses.Description
Supervisor
Forsman, PekkaThesis advisor
Munir, FarzeenKeywords
autonomous vehicle, vision-language models, deep learning, trajectory prediction