Reinforcement Learning for Physical Layer Job Scheduling

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Electrical Engineering | Master's thesis

Date

2024-11-14

Department

Major/Subject

Communications Engineering

Mcode

Degree programme

Master's Programme in Computer, Communication and Information Sciences

Language

en

Pages

88

Series

Abstract

Societal demand for higher connectivity leads to the continuous increase of requirements for wireless communication. There is a need to seek new solutions to meet this demand. Although 5G New Radio has been a reliable method to tackle this predicted demand and envisioned use cases for wireless communication, there is ongoing research for more advanced solutions for 6G. One aspect is to include Machine Learning (ML) as part of the Physical Layer (L1) since ML solutions excel in such a stochastical environment. Analysis of L1 job scheduling has been introduced in research. Using ML algorithms in L1 job scheduling is an unexplored topic since there are no publicly available data sources on which to train. Job scheduling is often an NP-hard combinatorial optimization problem, and finding an optimal solution is complex. Therefore, it is advantageous to use Reinforcement Learning (RL) algorithms for such problems. This work studied how scheduling data from a 5G PUSCH uplink link-level simulator and standardized scheduling instances can be used to train state-of-the-art RL algorithms. Furthermore, trained algorithms were compared to classical scheduling ones in solving NP-hard job scheduling problems. An end-to-end system from the 5G PUSCH uplink data source to reinforcement learning training and testing was designed and implemented to achieve these goals. The performance of the trained RL algorithms is evaluated using a standardized makespan metric. The results show that the developed system enabled the training of RL algorithms that could outperform classical scheduling algorithms in selected benchmarks. In general, the top-performing algorithms achieved a 3 to 15 percentage point reduction in makespan compared to the widely used FIFO algorithm. The Proximal Policy Optimization (PPO) algorithm performed consistently in every benchmark. Even with small neural networks, the PPO excels in the 5G PUSCH uplink scheduling scenarios, lowering the computational requirements to run inference. The trained PPO fell around 11 percentage points behind the state-of-the-art results observed in the literature. Multiple methods were identified that could improve the obtained results.

Yhteiskunnan kasvava tarve yhteyksille asettaa langattoman viestinnän järjestelmille vaatimuksia. Vaatimuksien takia on tarve etsiä uusia ratkaisuja, jotka pystyvät vastaamaan kyseisiin vaatimuksiin. Vaikka 5G on ollut toimiva tapa selvitä vaatimuksista ja ennakoiduista käyttötapauksista, vieläkin edistyksellisempien ratkaisujen tutkimus on jo aloitettu 6G:tä varten. Yksi 6G-tutkimuksen kohde on koneoppimisratkaisujen liittäminen osaksi fyysistä kerrosta (engl. Layer 1 tai L1), sillä kyseiset ratkaisut menestyvät stokastisessa ympäristössä. Fyysisen kerroksen töiden aikatauluttamista on tutkittu kirjallisuudessa, mutta koneoppimis-algoritmien hyödyntäminen kokonaisuudessa on tutkimaton aihe. Tämä johtuu siitä, ettei aihetta käsittelevää, ja algoritmien kouluttamiseen käytettävää, dataa ole julkisesti saatavilla. Töiden aikatauluttaminen on usein NP-vaikea kombinatorinen optimointiongelma, joten optimaalisen ratkaisun löytäminen on haastavaa. Siitä syystä, ongelman ratkaisemiseen on kannattavaa hyödyntää vahvistusoppimista (engl. reinforcement learning). Tämä työ tutkii, miten 5G PUSCH uplink-linkkitason simulaattorista kerättyä, sekä standardisoitua, töiden aikataulutus dataa voidaan käyttää vahvistusoppimis-algoritmien kouluttamiseen. Työssä vertaillaan, miten koulutetut algoritmit pärjäävät tavallisiin aikataulutus algoritmeihin verrattuna. Tavoitteen saavuttamista varten kehitettiin kattava järjestelmä, joka sisältää 5G PUSCH datan keräämisen ja vahvistusoppimis-algoritmien kouluttamiseen sekä testaamisen. Algoritmien suorituskykyä arvioimiseen käytettiin standardisoitua makespan-metriikkaa. Tulokset osoittavat, että toteutetulla järjestelmällä koulutetut algoritmit suoriutuvat tavallisia algoritmeja paremmin standardoiduissa testeissä. Kaikista parhaiten pärjäävät vahvistusoppimis-algoritmit saavuttivat kolmesta viiteentoista prosenttiyksikköä parempia tuloksia makespan-metriikassa laajasti käytettyyn FIFO-algoritmiin verrattuna. Proximal policy optimization -algoritmi (PPO) suoriutui tasaisesti kaikissa testeissä. Algoritmi suoriutui hyvin, varsinkin 5G PUSCH uplink skenaarioissa, pienillä neuroverkoilla. Pienet neuroverkot vähentävät neuroverkkoinferenssin ajamiseen vaadittavien laskennallisten resurssien tarvetta. PPO-algoritmi jäi kuitenkin 11 prosenttiyksikköä jälkeen kirjallisuuden parhaista tuloksista. Työssä tunnistettiin useita menetelmiä, joiden avulla tuloksia voisi parantaa.

Description

Supervisor

Tirkkonen, Olav

Thesis advisor

Hassinen, Marko

Keywords

reinforcement learning, job scheduling, 5G PUSCH, physical layer, job-shop scheduling problem, NP-hard

Other note

Citation