Continual Reinforcement Learning in a Resource Allocation Simulator

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Department

Mcode

SCI3044

Language

en

Pages

67

Series

Abstract

The ability to operate in a changing environment is seen as an essential aspect of any reinforcement learning algorithm designed for real-world usage, as models trained only with historical data will lead to a decrease in performance. Traditional deep reinforcement learning algorithms have suffered from slow learning of new concepts and catastrophic forgetting, where previously learned information is lost when new information is presented. The aim of this thesis is to explore how deep reinforcement learning algorithms can be modified to make them more resilient to changes in the environment, and also to evaluate the usability of such algorithms in a resource allocation problem. These topics are approached by developing a simulator that mimics the internet usage of a population in an imaginary city, where the movement and behaviour of the population change suddenly. The network demand of different parts of this city are predicted using a Soft Actor-Critic algorithm, that is implemented with an experience replay buffer that can favour experiences from different time scales. The results show that the developed algorithm can learn new information faster, as well as to keep hold of older memories when compared to a baseline solution. Furthermore, the algorithm is found to be one potential approach to the resource allocation problem. However, the results also show that the time it takes to learn new information leaves room for improvement.

Kyky operoida muuttuvassa ympäristössä on tärkeä ominaisuus vahvistetun koneoppimisen algoritmeille, jotta niitä voidaan käyttää todellisessa maailmassa, sillä vain historiallisella datalla koulutetut mallit menettävät suorituskykyään ajan kuluessa. Perinteiset neuroverkkopohjaiset vahvistetun koneoppimisen algoritmit on tiedetty olevan hitaita oppimaan uutta informaatiota, sekä niiden on tiedetty kärsivän katastrofisesta vanhan tiedon unohtamisesta, kun niille on syötetty uudempaa tietoa. Tämän työn tavoite on tutkia tapoja, joilla neuroverkkopohjaisista vahvistetun koneoppimisen algoritmeista voidaan tehdä mukautuvampia muuttuvaan ympäristöön, sekä tutkia voiko kyseisiä algoritmeja käyttää resurssien allokointiongelmissa. Näitä kysymyksiä tutkittiin kehittämällä simulaattori, joka simuloi kuvitteellisen kaupungin populaation internetin käyttöä maailmassa, jossa ihmisten liikkuminen ja käyttäytyminen muuttui yllättäen ajan kuluessa. Kaupungin eri alueiden internetin käyttöä yritetään ennustaa käyttäen Soft Actor-Critic-algoritmia, joka on toteutettu tapahtumamuistilla, joka voi suosia tiettyjä ajankohtia historiassa. Tulokset osoittivat, että toteutettu algoritmi pystyi oppimaan uutta tietoa nopeammin kuin vertailualgoritmi, sekä ylläpitämään aikaisempaa tietoa paremmin. Toteutettu algoritmi todettiin mahdolliseksi ratkaisuksi kyseiseen resurssien allokointiongelmaan, mutta tulokset osoittivat, että uuden informaation oppiminen tapahtuu edelleen hitaasti.

Description

Supervisor

Marttinen, Pekka

Thesis advisor

Lee, Denny

Other note

Citation