Vision-Language Models for Trajectory Prediction

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorMunir, Farzeen
dc.contributor.authorLiukkonen, Emil
dc.contributor.schoolSähkötekniikan korkeakoulufi
dc.contributor.supervisorForsman, Pekka
dc.date.accessioned2024-07-02T08:10:43Z
dc.date.available2024-07-02T08:10:43Z
dc.date.issued2024-05-07
dc.description.abstractAchieving safe autonomous driving requires accurate trajectory prediction. Therecent advancements in vision-language models (VLM) could address the existing limitations in autonomous vehicle systems such as edge cases, limited generalization capabilities, and a lack of explainability. This literature review introduces visionlanguage models, presents nine state-of-the-art VLMs, and evaluates them either qualitatively or quantitatively on the task of trajectory prediction. While the various VLMs each possess unique characteristics, they share a common feature: all utilize large language models (LLMs) as the core intelligence behind their autonomous vehicle systems. The study suggests that VLMs successfully perform the task of trajectory prediction in simulated environments, they outperform other methods such as classical machine learning methods, owing to their capability for generalization. However, real-world application is still not deemed safe due to the existing limitations of large language models. Real-world application would require LLMs to become significantly faster while also addressing the hallucination problem.en
dc.description.abstractFör att uppnå säker och effektiv autonom körning krävs det att man noggrant kan förutse fordonets trajektoria. Nuvarande metoder inom autonom körning har en begränsad generaliseringsförmåga och har därmed svårt att hantera ovanliga situationer. I nuläget är det dessutom svårt för föraren att få en insyn i det autonoma fordonets logiska härledning. De senaste framstegen inom vision-språkmodeller möjliggör reducering av de befintliga begränsningarna inom autonom körning. I den här litteraturstudien presenteras förutseende av trajektorier, som är en viktig aspekt inom autonom körning. Förutseende av trajektorier säkerställer att fordon tryggt kan nå sin destination. Utöver det introduceras vision-språkmodeller och nio toppmoderna vision-språkmodeller utvärderas antingen kvalitativt eller kvantitativt på basis av hur bra de kan förutse trajektorier. I och med att användandet av visionspråkmodeller inom autonom körning är ett nytt område så är det viktigt att sammanfatta de nyaste modellerna och bedöma dem på basis av hur bra de presterar och om det går att tillämpa dem i verkligheten. De olika modellerna skiljer sig från varandra. Deras inputs varierar från videor till text, och de har alla olika huvudsakliga ändamål. Dock så har de alla en gemensam egenskap. De använder stora språkmodeller, såsom OpenAIs ChatGPT som fordonets hjärna. Fastän de flesta modellerna har ett annat huvudsakligt ändamål än förutseende av trajektorier, så är det viktigt att de klarar av att säkert förutse trajektorier. Resultaten tyder på att visionspråkmodeller presterar bättre än äldre metoder, såsom klassiska maskininlärningsmetoder. De har i teoretiska och simulerade omgivningar klarat av att säkert nå den önskade destinationen. Användning av vision-språkmodeller har i diverse experiment lett till färre kollisioner i svåra fall såsom nödsituationer. Det här beror på deras exceptionella förmåga att generalisera, de använder stora språkmodeller för att härma människans förnuft. Dock så anses tillämpning i verkligheten inte ännu vara säker på grund av de befintliga begränsningarna hos stora språkmodeller. Stora språkmodeller kan hallucinera, vilket innebär att de kan ge falsk information. Det här är en stor farorisk. Felmarginalen inom autonom körning är betydligt mindre än hos chatbottar. Det tar flera sekunder för stora språkmodeller att generera ett svar, det här är en för lång period för att tillämpning i verkligheten ska vara möjlig. För att tillämpa dem i verkligheten så krävs det att stora språkmodeller blir betydligt snabbare och att hallucinationsproblemet löses.sv
dc.format.extent5+25
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/129429
dc.identifier.urnURN:NBN:fi:aalto-202407025014
dc.language.isoenen
dc.programmeSähkötekniikan kandidaattiohjelmafi
dc.programme.majorAutomaatio ja robotiikkafi
dc.programme.mcodeELEC3014fi
dc.subject.keywordautonomous vehicleen
dc.subject.keywordvision-language modelsen
dc.subject.keyworddeep learningen
dc.subject.keywordtrajectory predictionen
dc.titleVision-Language Models for Trajectory Predictionen
dc.typeG1 Kandidaatintyöfi
dc.type.dcmitypetexten
dc.type.ontasotBachelor's thesisen
dc.type.ontasotKandidaatintyöfi

Files

Original bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
Liukkonen_Emil_2024.pdf
Size:
1000.39 KB
Format:
Adobe Portable Document Format