Graph-based representations for policy learning in a multi-agent autonomous driving scenario
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Sähkötekniikan korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2023-08-21
Department
Major/Subject
Control, Robotics and Autonomous Systems
Mcode
ELEC3025
Degree programme
AEE - Master’s Programme in Automation and Electrical Engineering (TS2013)
Language
en
Pages
26
Series
Abstract
In this thesis the validity of graph-based representations, i.e., graph neural networks for policy learning were studied in the context of autonomous driving. The environment around the self-driving vehicle was encoded into a mathematical graph; the vehicles are the nodes/vertices, and the distance to other vehicles the lines/edges of the graph. A new approach for combining this information into a transformer was presented: the TCIL algorithm. This new algorithm hopes to combine the social attention, i.e., the relationships, of other vehicles and in doing so including more information about the surrounding environment to the neural network. The hypothesis for the thesis supported this; that graph-based representations are useful for policy learning. The new TCIL algorithm was implemented in a simulated environment, using an existing library and solutions, that were modified to include the new transformer architecture. The chosen autonomous driving scenario was a roundabout. The new TCIL agents were trained and then tested in the roundabout scenario, and their performance was compared against the base CIL model. The performance was measured based on if they could reach a designated end goal or not. However, the collected data only somewhat supported the hypothesis. The results show that the new approach was better in 2 out of 3 scenarios. However, there could be other factors that might affect the results. Nevertheless, there is potential for improvement over the base CIL model, but it requires more research.Tässä diplomityössä tutkittiin graafisten esitysten eli graafisten hermoverkkojen pätevyyttä politiikan oppimiseen autonomisen ajon yhteydessä. Itseajavan auton ympäristö muutettiin matemaattiseksi graafiksi; ajoneuvot ovat sen solmuja ja etäisyys muihin ajoneuvoihin graafian kaaria. Työssä esiteltiin uusi lähestymistapa näiden tietojen yhdistämiseksi transformerin kanssa, ja kuvattiin uusi TCIL-algoritmi. Tässä uudessa algoritmissa otetaan huomioon muiden kulkuneuvojen sosiaaliset suhteet ja ne sisällytetään hermoverkkoon, jolloin saadaan enemmän tietoa auton ympäristöstä. Diplomityön hypoteesi tuki tätä lähestymistapaa; että graafiin perustuvat esitykset ovat hyödyllisiä politiikan oppimisessa. Uusi TCIL-algoritmi toteutettiin simuloidussa ympäristössä käyttämällä jo olemassa olevia ohjelmointikirjastoja ja ratkaisuja, joita muokattiin sisältämään uusi transformer-arkkitehtuuri. Valittu autonomisen ajon skenaario oli liikenneympyrä. Uudet TCIL-agentit koulutettiin ja testattiin tässä liikenneympyräskenaariossa, ja niiden suorituskykyä verrattiin CIL-perusmalliin. Suorituskykyä mitattiin sen perusteella, pystyivätkö ne saavuttamaan maalialueen vai eivät. Kerätty data kuitenkin tuki hypoteesia vain jossain määrin. Tulokset osoittivat, että uusi lähestymistapa oli parempi kahdessa kolmesta eri skenaariosta. Taustalla saattaa kuitenkin olla muitakin tekijöitä, jotka voivat vaikuttaa tuloksiin. Siitä huolimatta uudella lähestymistavalla on potentiaalia parannukseen CIL-perusmalliin verrattuna, mutta se vaatii lisää tutkimusta.Description
Supervisor
Kyrki, VilleThesis advisor
Baimukashev, DauletKeywords
graphs, policy learning, autonomous driving, imitation learning, CARLA simulator