Graph-based representations for policy learning in a multi-agent autonomous driving scenario

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Sähkötekniikan korkeakoulu | Master's thesis

Date

2023-08-21

Department

Major/Subject

Control, Robotics and Autonomous Systems

Mcode

ELEC3025

Degree programme

AEE - Master’s Programme in Automation and Electrical Engineering (TS2013)

Language

en

Pages

26

Series

Abstract

In this thesis the validity of graph-based representations, i.e., graph neural networks for policy learning were studied in the context of autonomous driving. The environment around the self-driving vehicle was encoded into a mathematical graph; the vehicles are the nodes/vertices, and the distance to other vehicles the lines/edges of the graph. A new approach for combining this information into a transformer was presented: the TCIL algorithm. This new algorithm hopes to combine the social attention, i.e., the relationships, of other vehicles and in doing so including more information about the surrounding environment to the neural network. The hypothesis for the thesis supported this; that graph-based representations are useful for policy learning. The new TCIL algorithm was implemented in a simulated environment, using an existing library and solutions, that were modified to include the new transformer architecture. The chosen autonomous driving scenario was a roundabout. The new TCIL agents were trained and then tested in the roundabout scenario, and their performance was compared against the base CIL model. The performance was measured based on if they could reach a designated end goal or not. However, the collected data only somewhat supported the hypothesis. The results show that the new approach was better in 2 out of 3 scenarios. However, there could be other factors that might affect the results. Nevertheless, there is potential for improvement over the base CIL model, but it requires more research.

Tässä diplomityössä tutkittiin graafisten esitysten eli graafisten hermoverkkojen pätevyyttä politiikan oppimiseen autonomisen ajon yhteydessä. Itseajavan auton ympäristö muutettiin matemaattiseksi graafiksi; ajoneuvot ovat sen solmuja ja etäisyys muihin ajoneuvoihin graafian kaaria. Työssä esiteltiin uusi lähestymistapa näiden tietojen yhdistämiseksi transformerin kanssa, ja kuvattiin uusi TCIL-algoritmi. Tässä uudessa algoritmissa otetaan huomioon muiden kulkuneuvojen sosiaaliset suhteet ja ne sisällytetään hermoverkkoon, jolloin saadaan enemmän tietoa auton ympäristöstä. Diplomityön hypoteesi tuki tätä lähestymistapaa; että graafiin perustuvat esitykset ovat hyödyllisiä politiikan oppimisessa. Uusi TCIL-algoritmi toteutettiin simuloidussa ympäristössä käyttämällä jo olemassa olevia ohjelmointikirjastoja ja ratkaisuja, joita muokattiin sisältämään uusi transformer-arkkitehtuuri. Valittu autonomisen ajon skenaario oli liikenneympyrä. Uudet TCIL-agentit koulutettiin ja testattiin tässä liikenneympyräskenaariossa, ja niiden suorituskykyä verrattiin CIL-perusmalliin. Suorituskykyä mitattiin sen perusteella, pystyivätkö ne saavuttamaan maalialueen vai eivät. Kerätty data kuitenkin tuki hypoteesia vain jossain määrin. Tulokset osoittivat, että uusi lähestymistapa oli parempi kahdessa kolmesta eri skenaariosta. Taustalla saattaa kuitenkin olla muitakin tekijöitä, jotka voivat vaikuttaa tuloksiin. Siitä huolimatta uudella lähestymistavalla on potentiaalia parannukseen CIL-perusmalliin verrattuna, mutta se vaatii lisää tutkimusta.

Description

Supervisor

Kyrki, Ville

Thesis advisor

Baimukashev, Daulet

Keywords

graphs, policy learning, autonomous driving, imitation learning, CARLA simulator

Other note

Citation