Model-based reinforcement learning for integrated radar and communications systems

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Electrical Engineering | Doctoral thesis (article-based) | Defence date: 2025-10-03

Date

Major/Subject

Mcode

Degree programme

Language

en

Pages

131 + app. 84

Series

Aalto University publication series Doctoral Theses, 179/2025

Abstract

Convergence between radar and wireless communications systems and growing demand for radio spectrum motivates the integration of radar and communications functionalities into unified, integrated sensing and communications (ISAC) systems. As sensing and communications tasks may have conflicting objectives, this integration poses new challenges for radio resource allocation and waveform co-design. A promising avenue for this integration is provided by multicarrier waveforms and systems with multiantenna architectures. However, time-varying channels and interferences as well as many degrees of freedom in frequency and spatial domains pose a need for efficient algorithms capable of adapting waveforms and resource use in real-time. Waveform optimization and resource allocation problems have been traditionally solved using structured optimization approaches that are incapable of learning from experiences and are susceptible to modeling deficiencies. Therefore, this thesis adopts a data-driven reinforcement learning (RL) approach for optimizing resource allocations and waveforms in ISAC systems. In particular, the focus is on model-based reinforcement learning (MBRL) that, unlike model-free RL, can utilize the rich structural knowledge about sensing and wireless communications systems to improve data-efficiency and interpretability. This approach builds on a constrained partially observable Markov decision process (C-POMDP) model that allows target states and radio channels to be dynamic and captures uncertainty in observations about the targets and radio channel conditions. Furthermore, C-POMDPs enable balancing between communications and sensing tasks via constrained formulation. MBRL approach is well-known in the field of control theory. However, fundamental differences, such as the complexity of the decision spaces and dynamical models, make applying traditional MBRL and control algorithms to ISAC systems difficult. Therefore, this dissertation develops a practical approach based on online learning as well as myopic and pseudo-myopic control strategies tailored for ISAC systems. Analytical bounds are derived and verified numerically for the myopic strategy to give rigorous performance guarantees. The myopic and pseudo-myopic strategies are also demonstrated in practical multicarrier and multiantenna ISAC resource allocation and waveform optimization problems. These problems involve allocating resources or powers in the frequency domain (sub-carriers or resource blocks) and beamspace domain (codebook of beams) while operating in dynamic target and radio environments. This dissertation shows that computationally efficient algorithms based on MBRL can be developed to solve practical resource allocation and waveform design problems in multicarrier and multiantenna ISAC systems. In particular, the data efficiency and interpretability are improved compared to the model-free RL approach. Furthermore, this online learning capability enables ISAC systems to adapt to dynamic radio environments to improve robustness and performance compared to traditional structured optimization approaches.

Modernit tutkat ja langattomat kommunikaatiojärjestelmät muistuttavat yhä enemmän toisiaan. Lisäksi jatkuvasti kasvava radiospektrin tarve kannustaa yhdistämään tutka- ja kommunikaatiotoiminnallisuudet samaan järjestelmään, jota kutsutaan integroiduksi tutka- ja kommunikaatiojärjestelmäksi (ISAC). Tämä integraatio asettaa uusia haasteita radioresurssien hallinnalle ja aaltomuotojen suunnittelulle, koska tutkan ja kommunikaatiojärjestelmän tehtävät voivat olla keskenään ristiriitaisia. Monikantoaaltomuodot sekä suuret antenniryhmät luovat lupaavan teknologisen pohjan ISAC-järjestelmille. Jotta järjestelmä pystyy reaaliaikaisestimukautumaan nopeasti muuttuviin radiokanaviin ja häiriölähteisiin, täytyy resurssienhallinnan ja aaltomuotojen optimoinnin olla riittävän laskentatehokkaita ja adaptiivisia. Tämä on erityisen haastavaa monikanto- ja moniantenni-ISAC-järjestelmissä, sillä vapausasteiden määrä on suuri. Aaltomuotojen optimointi- ja resurssienhallintaongelmia on perinteisesti ratkaistu käyttämällä strukturoituja optimointimenetelmiä. Kyseiset menetelmät eivät opi aiemmista kokemuksista ja ovat alttiita mallinnusvirheille. Tämän vuoksi tässä väitöskirjassa tutkitaan vahvistusoppimismenetelmien käyttöä resurssienhallinnassa ja aaltomuotojen optimoinnissa ISAC-järjestelmissä, joissa oppiminen perustuu reaaliaikaisesti kerättyyn dataan. Erityisesti tarkastellaan mallipohjaisia vahvistusoppimismenetelmiä, jotka toisin kuin täysin mallivapaat menetelmät, hyödyntävät rakenteellista tietoa ISAC-järjestelmistä parantaakseen datatehokkuutta ja menetelmien tulkittavuutta. Menetelmien pohjana on rajoitettu osittain havaittava Markov-päätösprosessi (CPOMDP), jonka avulla voidaan mallintaa aikariippuvaisia maalien ja radiokanavien tiloja, sekä niistä saatavia havaintoja. Lisäksi C-POMDP-malli mahdollistaa tutka- ja kommunikaatiotavoitteiden tasapainottamisen rajoiteyhtälöihin perustuvan muotoilun avulla. Mallipohjainen vahvistusoppiminen on hyvin tunnettu menetelmäperhe automaatio- ja robotiikkasovelluksissa, mutta sitä on sovellettu vain vähän ISAC-järjestelmissä. Erityisen haastavaa kyseisten menetelmien käytöstä ISAC-järjestelmissä tekee moniulotteiset päätösavaruudet ja monimutkaiset, osin tuntemattomat dynaamiset mallit. Tässä väitöskirjassa kehitetään käytännöllisiä reaaliaikaoppimiseen pohjautuvia menetelmiä ja säätöstrategioita, jotka onsuunniteltu ISAC-järjestelmille. Menetelmien suorituskykyä arvioidaan analyyttisesti, ja tulokset varmistetaan simulaatioilla. Lisäksi simulaatioita käytetään vertailemaan menetelmiä käytännöllisissä monikanto- ja moniantenni-ISAC-järjestelmien resurssienhallinta- ja aaltomuotojen optimointiongelmissa. Näissä ongelmissa resursseja ja niiden tehoja optimoidaan tyypillisesti taajuustasossa ja keila-avaruudessa, samalla kun toimitaan dynaamisissa maali- ja radioympäristöissä. Tämä väitöskirja osoittaa, että laskennallisesti tehokkaita mallipohjaisia vahvistusoppimisalgoritmeja voidaan kehittää ratkaisemaan resurssienhallinta- ja aaltomuotojen optimointiongelmia monikanto- ja moniantenni-ISAC-järjestelmissä. Esitetyt menetelmät parantavat datatehokkuutta ja tulkittavuutta verrattuna mallivapaisiin vahvistusoppimismenetelmiin. Lisäksi niiden kyky oppia reaaliajassa mahdollistaa ISAC-järjestelmien mukautumisen dynaamisissa radioympäristössä, mikä parantaa järjestelmien luotettavuutta ja suorituskykyä verrattuna perinteisiin strukturoituihin optimointi menetelmiin.

Description

Supervising professor

Koivunen, Visa, Prof., Aalto University, Department of Information and Communications Engineering, Finland

Other note

Parts

  • [Publication 1]: P. Pulkkinen and V. Koivunen. Model-Based Online Learning for Resource Sharing in Joint Radar-Communication Systems. In Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Singapore, pp. 4103-4107, May 2022.
    DOI: 10.1109/ICASSP43922.2022.9747269 View at publisher
  • [Publication 2]: P. Pulkkinen and V. Koivunen. Model-Based Online Learning for Joint Radar-Communication Systems Operating in Dynamic Interference. In Proceedings of the 30th European Signal Processing Conference (EUSIPCO), Belgrade, Serbia, pp.992-996, Aug 2022.
    DOI: 10.23919/EUSIPCO55093.2022.9909601 View at publisher
  • [Publication 3]: P. Pulkkinen and V. Koivunen. Model-Free Online Learning for Waveform Optimization In Integrated Sensing And Communications. In Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Rhodes Island, Greece, pp.1-5, Jun 2023.
    DOI: 10.1109/ICASSP49357.2023.10095423 View at publisher
  • [Publication 4]: P. Pulkkinen and V. Koivunen. Model-Based Online Learning for Active ISAC Waveform Optimization. Journal of Selected Topics in Signal Processing, vol. 18, no. 5, pp. 737-751, July 2024.
    DOI: 10.1109/JSTSP.2024.3386057 View at publisher
  • [Publication 5]: P. Pulkkinen and V. Koivunen. Partially Observable Model-Based Learning For ISAC Resource Allocation. In Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Seoul, Korea, pp.12996-13000, Apr 2024.
    DOI: 10.1109/ICASSP48485.2024.10448312 View at publisher
  • [Publication 6]: P. Pulkkinen, M. Esfandiari and V. Koivunen. Cognitive Beamspace Algorithm for Integrated Sensing and Communications. In Proceedings of the IEEE Radar Conference (RadarConf), Denver, C0, USA, pp.1-6, May 2024.
    DOI: 10.1109/RadarConf2458775.2024.10548386 View at publisher
  • [Publication 7]: P. Pulkkinen, M. Esfandiari and V. Koivunen. Beamspace and Frequency Domain ISAC Resource Allocation using Reinforcement Learning. In Proceedings of the 58th Annual Asilomar Conference on Signals, Systems, and Computers, Pacific Grove, CA, USA, pp. 443-449, Oct 2024.
    DOI: 10.1109/IEEECONF60004.2024.10942992 View at publisher
  • [Publication 8]: P. Pulkkinen, M. Esfandiari, H.V Poor and V. Koivunen. Multicarrier MIMO ISAC Resource Allocation Using Model-Based Reinforcement Learning. Submitted to IEEE Transactions on Signal Processing, May 2025

Citation