aalto1 untyped-item.component.html
Multi-agent deep reinforcement learning to maximize a fair network utility
Loading...
Files
Aalto login required (access for Aalto Staff only).
URL
Journal Title
Journal ISSN
Volume Title
Sähkötekniikan korkeakoulu |
Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
Department
Major/Subject
Mcode
ELEC3015
Degree programme
Language
en
Pages
26
Series
Abstract
Spectrum management policies have not been able to keep up with the rapidly evolving landscape of wireless communication technology resulting in underutilization of spectrum resources. Dynamic spectrum sharing has shown promising results to overcome the limitations of traditional spectrum management policies and meeting the demands of new wireless communication systems. However, allocating spectrum resources in the dynamic spectrum sharing scheme is a nontrivial task.
The application of deep reinforcement learning methods to solve problems inherent in wireless communication is a relatively new research direction, driven by developments in artificial intelligence and machine learning models along with increased computational power. This thesis considers a multi-agent deep reinforcement learning approach, specifically deep Q-learning to address the spectrum sharing problem for maximizing a fair network utility. The thesis includes a literature review of the key concepts of reinfrocement learning and a deep Q-netwrok implementation to tackle the spectrum sharing problem.
The thesis considers a static environment of N transmitters and receivers sharing J subbands, with transmitters employing a deep Q-network to determine its transmission schedule. The deep Q-network approach is benchmarked against a simple greedyn strategy optimisation strategy to evaluate the effectives of the deep reinfrocement learning approach. Numeric results indicate that the implemented multi-agent deep Q- network is able to learn near optimal tranmission scheduling strategies based on exaustive search.
Albeit, the results presented in this thesis show positive indication of deep reinforcement learnings effectivelss at solving the dynamic spectrum sharing problem. The system considered in this thesis is simple in contrast to those present in real-world setting. Additionally, studies applying RL methods are usually setting dependent. Therefore, further research is needed to explore the application of RL methods in wireless communication systems to make it a viable approach.
Nykypäivän langattomat viestintäjärjestelmät takaavat häiriövapaan viestinnän jakamalla taajuusresurssit tarkasti määriteltyihin taajuuskaistoihin. Nämä taajuuskaistat on määritelty staattisiksi. Tämän staattisen allokoinnin seurauksena monet taajuuskaistat kokevat vajaakäyttöä samaan aikaan kun toiset ovat ruuhkaantuneita. Uudet langattomat viestintäteknologiat kuten 5G ja esineiden internetti vaativat yhä nopeampia tiedonsiirtokanavia. Erityisesti 5G:ssä etenemiskanavan ominaisuudet määrittävät tiedonsiirtonopeuden. Langattomien viestintäjärjestelmien käyttäjien eksponentiaalisen kasvun ja dynaamisen luonteen seurauksena vaaditaan tehokkaampia tapoja hyödyntää saatavilla olevia taajuusresursseja, jotta nämä viestintäteknologiat voivat täyttää niiden tiedonsiirtovaatimukset.
Syvävahvistusoppimisen soveltaminen langattomissa viestintäjärjestelmissä on noussut esille uutena tutkimuskohteena – tämä johtuu koneiden kasvaneella laskentakyvyllä, neuroverkkojen kyvyllä hallita moniulotteisia tiloja sekä löytää lähes optimaalisia ratkaisuja kompleksisiin ongelmiin. Viime vuosina syvävahvistusoppimista soveltavat tutkimukset, sekä oppimisalgoritmien kehitys langattomissa viestintäteknologioissa ovat osoittaneet myönteisiä tuloksia optimaalisten ratkaisujen löytämiseksi. Dynaamisten taajuusresurssien jakamisella pyritään vaikuttamaan staattisten resurssien allokointeihin liittyviin haasteisiin, allokoimalla taajuusresursseja käyttäjille käytön tarpeen mukaan. Dynaaminen taajuusresurssien jakaminen ei ole kuitenkaan laskennallisesti yksinkertaista toteuttaa. Tämä kandidaatin työ tutkii moniagentti syvävahvistusoppimisen soveltamista taajuuksien tasa-arvoiseen dynaamiseen jakamiseen viestintäjärjestelmien kesken. Työ sisältää kirjallisuuskatsauksen vahvistusoppimisen perusperiaatteesta sekä kokeellisen osan, jossa toteutettiin moniagentti syvävahvistusoppimismalli hyödyntäen syvää Q-oppimista.
Tässä kandidaatin työssä tarkastellaan ympäristöä, jossa on N kappaletta lähetys- ja vastaanottoparia, jotka jakavat S yhteistä taajuusresurssin alikaistaa. Lähettäjät mallinnettiin itsenäisinä tukiasemina, joiden tehtävänä on valita lähetysaikataulu alikaistoille siten, että ne maksimoivat minimi tiedonsiirtonopeutta kaikkien lähettäjä- ja vastaanottoparien kesken. Lisäksi lähettäjät eivät voi keskenään koordinoida niiden lähetysaikatauluja. Moniagenttivahvistusoppimismalli toteutettiin kouluttamalla syvä Q-verkko vastaamaan lähettäjän lähetysaikataulusta. Moniagenttivahvistusoppimismallin kykyä toteuttaa dynaamista taajuusresurssien jakamista arvioitiin vertaamalla minimi tiedonsiirtonopeutta simuloidussa ympäristössä agentteihin, jotka toimivat ahneesti.
Kokeellisen työn tulokset osoittavat moniagentti syvävahvistusoppimisen kyvyn dynaamisesti allokoida tasa-arvoisesti taajuusresursseja. Moniagenttisyvävahvistusoppimismalli kykeni oppimaan moniagentti ympäristössä lähetysaikalauluja, jotka tuottivat parempia tiedonsiirtonopeuksia kuin ahneet agentit. Lisäksi moniagenttivahvistusoppimismalli kykeni oppimaan lähes optimaalisia lähetysaikatauluja sen toimimassa ympäristössä riittävän monella koulutusiteraatiolla. Tuloksia tulee kuitenkin lähestyä suuntaa-antavina, sillä kokeellisessa osassa käytetty viestintäjärjestelmä ja sen toimintaympäristö on yksinkertaistettu malli todellisuudessa esiintyvistä viestintäjärjestelmistä.
Syvävahvistusoppimisen sovellusta langattomissa viestinjärjestelmissä tulee tutkia vielä lisää. Nykyiset tutkimukset kuitenkin osoittavat sen soveltamisen olevan lupaava menetelmä dynaamisten taajuusresurssien jako-ongelman ratkaisuun. Moniagenttisyvävahvistusoppimisen sovellusta langattomissa viestintäjärjestelmissä on myös tärkeää tutkia muista näkökulmista kuin tiedonsiirtonopeuden maksimoimisesta, kuten viestien vastaanottamisen luotettavuuden parantamisesta.