Radar Resource Management (RRM) considers the allocation and scheduling of radar resources as well as optimization or selection of radar operational parameters. Advanced radar technologies, such as multifunction radars, electronically steerable phased-array antennas, and Multiple-Input Multiple-Output (MIMO) systems, have increased the demand for intelligent RRM algorithms to maximize real-time radar performance. Most of the RRM algorithms rely on models and optimization techniques. However, RRM problems can be difficult to model as optimization problems, and modeling errors can degrade the radar performance significantly.
In this thesis, Reinforcement Learning (RL) methods are developed to address RRM problems. The RL methods enable software agents to learn from interaction while not using models of the RRM problems developed beforehand. The two considered RRM problems are: transmitter (TX) and receiver (RX) selection for distributed MIMO radars, and Revisit Interval Selection (RIS) for target tracking tasks in multifunction radars.
Active TX-RX selection facilitates efficient resource use and adaptation to different target scenarios and signal propagation environments in distributed MIMO radar systems. The TX-RX selection problem is formulated as a stochastic multi-armed bandit (MAB) problem and further extended to the combinatorial MAB framework. Various RL algorithms developed for the MAB problem are employed to learn the optimal subset in real-time. It is shown that such algorithms can be effectively used for the TX-RX selection problem even in non-stationary scenarios.
An adaptive RIS algorithm is an integral part of efficient radar time budget management. The RIS problem is formulated as a Markov Decision Process (MDP) with unknown state transition probabilities and reward distributions. The reward signal is proposed to minimize the tracking load while keeping the risk of losing tracks at a tolerable level. The RL problem is solved using the Q-learning algorithm with an epsilon-greedy exploration policy. Compared to the baseline algorithm, the RL approach was capable of reducing the tracking load peaks, which is essential when a multifunction radar is working in overload situations.
Tutkan resurssienhallinta käsittelee tutkan resurssien allokointia, tutkan tehtävien aikataulutusta, sekä toimintaparametrien optimointia ja valintaa. Edistyneet tutkateknologiat kuten vaiheohjatut monitehtävätutkat, elektronisesti vaiheohjatut adaptiiviset antennit ja MIMO-järjestelmät (Multiple-Input Multiple-Output) ovat lisänneet tarvetta älykkäille resurssienhallinta-algoritmeille, jotka reaaliaikaisesti maksivoivat tutkan toimintakyvyn. Usein resurssienhallinta-algoritmit pohjautuvat malleihin ja optimointitekniikoihin. Tutkan resurssienhallinnan mallintaminen optimointiongelmana voi olla kuitenkin haastavaa ja virheet malleissa voivat huonontaa tutkan suorituskykyä verrattuna optimaaliseen suorituskykyyn.
Tässä diplomityössä tutkitaan vahvistusoppimismetodien käyttöä tutkan resurssienhallinnassa. Vahvistusoppiminen mahdollistaa ohjelmistopohjaisten agenttien oppimisen vuorovaikutuksesta ympäristön kanssa, jolloin ei tarvita ennalta kehitettyjä malleja resurssienhallintaongelmista. Tässä työssä on kehitetty vahvistusoppimismenetelmiä kahteen tutkan resurssienhallintaongelmaan: lähettimien ja vastaanottimien valinta hajautetussa MIMO-tutkassa ja maalin seurantatehtävään palaamisen aikavälin valinta (Revisit Interval Selection, RIS) monitehtävätutkassa.
Aktiivinen lähettimien ja vastaanottimen valinta mahdollistaa hajautetuille MIMO-tutkille tehokkaan resurssien käytön ja sopeutumisen erilaisiin maaliskenaarioihin ja signaalien etenemisympäristöihin. Valintaongelma formuloidaan stokastisena monikätinen rosvo (Multi-Armed Bandit, MAB) -ongelmana. Lisäksi ongelmaa laajennetaan kombinatorisella MAB-viitekehyksellä. Tällöin voidaan käyttää MAB ongelman ratkaisuun kehitettyjä vahvistusoppimisalgoritmeja, jotta tutka oppii valitsemaan optimaalisen lähettimien ja vastaanottimien osajoukon reaaliajassa. Työn tulokset osoittavat, että oppimiseen perustuvaa valinta-algoritmia voidaan käyttää valintaongelmaan hajautetussa MIMO tutkassa jopa epästationaarisissä tapauksissa.
Adaptiiviset RIS-algoritmit mahdollistavat monitehtävätutkan aikabudjetin tehokkaan hyödyntämisen. RIS-ongelma formuloidaan Markovin päätösprosessina, jossa tilojen siirtymistodennäköisyydet ja palkkioiden jakaumat eivät ole tunnettuja. Palkkiosignaali on kehitetty siten, että seurannasta aiheutuva kuorma on mahdollisimman pieni samalla kun pidetään kohteen menettämisen riski siedettävällä tasolla. Vahvistusoppimisongelma ratkaistaan käyttämällä Q-oppimisalgoritmia ja epsilon-ahne (epsilon-greedy) menetelmää. Vertailukohtana pidettyyn algoritmiin verrattuna vahvistusoppimiseen perustuva algoritmi pystyy pienentämään seurannasta aiheutuvaa kuormaa, mikä on tärkeää etenkin, kun monitehtävä tutka toimii ylikuormitettuna.