Reinforcement Learning for Physical Layer Job Scheduling
Loading...
URL
Journal Title
Journal ISSN
Volume Title
School of Electrical Engineering |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2024-11-14
Department
Major/Subject
Communications Engineering
Mcode
Degree programme
Master's Programme in Computer, Communication and Information Sciences
Language
en
Pages
88
Series
Abstract
Societal demand for higher connectivity leads to the continuous increase of requirements for wireless communication. There is a need to seek new solutions to meet this demand. Although 5G New Radio has been a reliable method to tackle this predicted demand and envisioned use cases for wireless communication, there is ongoing research for more advanced solutions for 6G. One aspect is to include Machine Learning (ML) as part of the Physical Layer (L1) since ML solutions excel in such a stochastical environment. Analysis of L1 job scheduling has been introduced in research. Using ML algorithms in L1 job scheduling is an unexplored topic since there are no publicly available data sources on which to train. Job scheduling is often an NP-hard combinatorial optimization problem, and finding an optimal solution is complex. Therefore, it is advantageous to use Reinforcement Learning (RL) algorithms for such problems. This work studied how scheduling data from a 5G PUSCH uplink link-level simulator and standardized scheduling instances can be used to train state-of-the-art RL algorithms. Furthermore, trained algorithms were compared to classical scheduling ones in solving NP-hard job scheduling problems. An end-to-end system from the 5G PUSCH uplink data source to reinforcement learning training and testing was designed and implemented to achieve these goals. The performance of the trained RL algorithms is evaluated using a standardized makespan metric. The results show that the developed system enabled the training of RL algorithms that could outperform classical scheduling algorithms in selected benchmarks. In general, the top-performing algorithms achieved a 3 to 15 percentage point reduction in makespan compared to the widely used FIFO algorithm. The Proximal Policy Optimization (PPO) algorithm performed consistently in every benchmark. Even with small neural networks, the PPO excels in the 5G PUSCH uplink scheduling scenarios, lowering the computational requirements to run inference. The trained PPO fell around 11 percentage points behind the state-of-the-art results observed in the literature. Multiple methods were identified that could improve the obtained results.Yhteiskunnan kasvava tarve yhteyksille asettaa langattoman viestinnän järjestelmille vaatimuksia. Vaatimuksien takia on tarve etsiä uusia ratkaisuja, jotka pystyvät vastaamaan kyseisiin vaatimuksiin. Vaikka 5G on ollut toimiva tapa selvitä vaatimuksista ja ennakoiduista käyttötapauksista, vieläkin edistyksellisempien ratkaisujen tutkimus on jo aloitettu 6G:tä varten. Yksi 6G-tutkimuksen kohde on koneoppimisratkaisujen liittäminen osaksi fyysistä kerrosta (engl. Layer 1 tai L1), sillä kyseiset ratkaisut menestyvät stokastisessa ympäristössä. Fyysisen kerroksen töiden aikatauluttamista on tutkittu kirjallisuudessa, mutta koneoppimis-algoritmien hyödyntäminen kokonaisuudessa on tutkimaton aihe. Tämä johtuu siitä, ettei aihetta käsittelevää, ja algoritmien kouluttamiseen käytettävää, dataa ole julkisesti saatavilla. Töiden aikatauluttaminen on usein NP-vaikea kombinatorinen optimointiongelma, joten optimaalisen ratkaisun löytäminen on haastavaa. Siitä syystä, ongelman ratkaisemiseen on kannattavaa hyödyntää vahvistusoppimista (engl. reinforcement learning). Tämä työ tutkii, miten 5G PUSCH uplink-linkkitason simulaattorista kerättyä, sekä standardisoitua, töiden aikataulutus dataa voidaan käyttää vahvistusoppimis-algoritmien kouluttamiseen. Työssä vertaillaan, miten koulutetut algoritmit pärjäävät tavallisiin aikataulutus algoritmeihin verrattuna. Tavoitteen saavuttamista varten kehitettiin kattava järjestelmä, joka sisältää 5G PUSCH datan keräämisen ja vahvistusoppimis-algoritmien kouluttamiseen sekä testaamisen. Algoritmien suorituskykyä arvioimiseen käytettiin standardisoitua makespan-metriikkaa. Tulokset osoittavat, että toteutetulla järjestelmällä koulutetut algoritmit suoriutuvat tavallisia algoritmeja paremmin standardoiduissa testeissä. Kaikista parhaiten pärjäävät vahvistusoppimis-algoritmit saavuttivat kolmesta viiteentoista prosenttiyksikköä parempia tuloksia makespan-metriikassa laajasti käytettyyn FIFO-algoritmiin verrattuna. Proximal policy optimization -algoritmi (PPO) suoriutui tasaisesti kaikissa testeissä. Algoritmi suoriutui hyvin, varsinkin 5G PUSCH uplink skenaarioissa, pienillä neuroverkoilla. Pienet neuroverkot vähentävät neuroverkkoinferenssin ajamiseen vaadittavien laskennallisten resurssien tarvetta. PPO-algoritmi jäi kuitenkin 11 prosenttiyksikköä jälkeen kirjallisuuden parhaista tuloksista. Työssä tunnistettiin useita menetelmiä, joiden avulla tuloksia voisi parantaa.Description
Supervisor
Tirkkonen, OlavThesis advisor
Hassinen, MarkoKeywords
reinforcement learning, job scheduling, 5G PUSCH, physical layer, job-shop scheduling problem, NP-hard