Deep Reinforcement Learning for Audio-Aware Agents in Virtual Environments

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Electrical Engineering | Master's thesis

Date

2024-12-31

Department

Major/Subject

Acoustics and Audio Technology

Mcode

Degree programme

Master's Programme in Computer, Communication and Information Sciences

Language

en

Pages

52

Series

Abstract

This thesis studies audio-based environment perception. The subject may benefit vehicular automation, which has gathered notable interest in recent years. The technology allows an object to move with little or completely without human interference. Vehicular automation has been applied in autonomous driving, UAVs and a number of household and industrial robots. Generally, autonomous mobility requires monitoring of the surroundings. The monitoring utilizes sensors, such as radar, cameras, lidar and sonar, to collect information of the visible environment and distances to obstacles. However, little attention has been paid on monitoring the acoustic environment. The problem may conveniently be studied on computer with virtual environments by utilizing a game engine, such as Unity. An agent may be trained to navigate in the environment according to the perceived location of the sound source. The training is enabled by a machine learning method, such as Deep Reinforcement Learning (DRL). This thesis evaluates the feasibility of utilizing Unity to train continuously moving intelligent audio-aware agents with DRL for navigation in complex environments and assesses the training with audio input exclusively. The aim is accomplished by constructing a virtual environment with an audio source, advanced sound spatialization and walls blocking direct sound in Unity, and training and evaluating intelligent agents with Sound Source Localization (SSL) capabilities in the environment. The spatialization allows modeling natural sound propagation in the environment such that sound appears to arrive from the correct location. SSL, which is implemented with the DRL in the work, enables the agent to infer the direction from which sound arrives. The results demonstrate that with readily available plugins the construction of the learning environment and the training of an agent on Unity are possible within an average workload of a thesis. In addition, training on audio input exclusively may be successful provided that advanced sound spatialization is utilized.

Tämä diplomityö käsittelee äänipohjaista ympäristön havainnointia. Aihe voi hyödyttää ajoneuvojen automaatiota, joka on herättänyt kiinnostusta viime vuosina. Teknologia mahdollistaa esineiden liikkumisen vähäisellä manuaalisella ohjaustarpeella tai täysin ilman ihmisen puuttumista ohjaukseen. Ajoneuvojen automaatiota on sovellettu autonomiseen ajamiseen, UAV:ihin ja moniin kotitalous- ja teollisuusrobotteihin. Yleensä autonominen liikkuminen vaatii ympäristön seurantaa. Seurantaan käytetään antureita, kuten tutkaa, kameroita, lidaria ja sonaria, keräämään tietoa näkyvästä ympäristöstä ja etäisyyksistä esteisiin. Kuitenkin akustisen ympäristön seurantaan on kiinnitetty vain vähän huomiota. Ongelmaa voidaan tutkia kätevästi tietokoneella virtuaaliympäristöissä hyödyntämällä pelimoottoria, kuten Unitya. Agentti voidaan kouluttaa navigoimaan ympäristössä havaitun äänilähteen sijainnin perusteella. Koulutus onnistuu koneoppimismenetelmällä, kuten syvällä vahvistusoppimisella (DRL). Tämä opinnäytetyö arvioi Unityn käyttökelpoisuutta jatkuvasti liikkuvien älykkäiden äänitietoisten agenttien kouluttamiseen DRL:llä monimutkaisissa ympäristöissä ja arvioi koulutusta yksinomaan äänisyötteen avulla. Tavoite saavutetaan rakentamalla Unityssa virtuaaliympäristö äänilähteellä, edistyneellä äänen spatialisoinnilla ja suoran äänen estävillä seinillä, ja kouluttamalla ja arvioimalla ympäristössä älykkäitä agentteja, joilla on äänilähteen paikannuskyky (SSL). Spatialisointi mahdollistaa luonnollisen äänen etenemisen mallintamisen ympäristössä siten, että ääni vaikuttaa saapuvan oikeasta suunnasta. SSL, joka on toteutettu työssä DRL:llä, mahdollistaa agentille äänen saapumissuunnan päättelyn. Tulokset osoittavat, että helposti saatavilla olevien liitännäisten avulla oppimisympäristön rakentaminen ja agentin kouluttaminen Unityssa ovat mahdollisia keskimääräisellä opinnäytetyön työmäärällä. Lisäksi koulutus pelkästään äänisyötteellä voi onnistua, kunhan edistynyttä äänen spatialisointia hyödynnetään.

Description

Supervisor

Hirvisalo, Vesa

Thesis advisor

Debner, Anton

Keywords

reinforcement learning, virtual environment, virtual acoustics, sound source localization, game engine, simulation, virtuaaliympäristö, virtuaaliakustiikka, äänilähteen paikantaminen, pelimoottori, simulointi

Other note

Citation