Multi-agent reinforcement learning for littoral naval warfare

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Department

Mcode

SCI3044

Language

en

Pages

83+9

Series

Abstract

Littoral warfare refers to naval combat that occurs near coastlines or in seas with more constraints than the vast open oceans. Although the fundamental principles of naval warfare are consistent in littoral zones, this environment introduces unique challenges and demands specific tactics. Tactical doctrines must recognize the strengths and limitations of deploying forces in these areas, necessitating careful planning and decision-making. Decision-making in such scenarios is complex, requiring a balance between timeliness and thoroughness, often under conditions of limited resources and significant uncertainty. Machine learning has the potential to enhance decision-making in this context by predicting possible outcomes, detecting patterns, and determining optimal actions. Naval conflicts have been infrequent throughout history, leading to a scarcity of data for applying data-intensive machine learning techniques. Naval forces consist of various units, and naval warfare is inherently competitive, involving two or more opposing sides. This environment is represented as a Partially Observable Stochastic Game (POSG), featuring two teams managed by decision-making agents. In POSG, the game is modeled through a framework of agents, states, actions, observations, and the probabilities of transitioning between states based on these actions. Multi-Agent Reinforcement Learning (MARL) algorithms are employed to devise policies that approximate solutions to POSG, aiming to address the challenges posed by this setting. The study tests two MARL algorithms, Double Deep Q-Networks and Proximal Policy Optimization, within this multi-agent context. The findings suggest that despite complexities and the changing nature of the environment (non-stationarity), MARL approaches can generate and analyze different tactical options. This assists decision-makers by either reinforcing established tactical doctrines or offering new solutions, thereby enriching tactical planning and execution.

Rajoitetun merialueen sodankäynti viittaa merisodankäyntiin, joka tapahtuu rannikkoalueiden läheisyydessä tai valtameriä rajoitetummille merialueilla. Vaikka merisodankäynnin perusperiaatteet pysyvät samoina rajoitetuilla merialueilla, tämä ympäristö tuo mukanaan erityisiä haasteita ja vaatii erityisiä taktiikoita. Taktisten doktriinien täytyy tunnistaa toiminta-alueen vahvuudet ja rajoitukset joukkojen operoinnille, mikä edellyttää huolellista suunnittelua ja päätöksentekoa. Päätöksenteko on haastavaa, sillä se vaatii nopeuden ja perusteellisuuden tasapainottamista usein rajallisten resurssien ja merkittävien epävarmuuksien suhteen. Koneoppimisella on potentiaalia parantaa päätöksentekoa esimerkiksi ennakoimalla mahdollisia lopputuloksia, havaitsemalla kaavamaisuuksia ja määrittämällä optimaalisia toimintatapoja. Merisodat ovat historiallisesti verrattain harvinaisia, mikä johtaa datan niukkuuteen dataintensiivisiä koneoppimismenetelmiä ajatellen. Laivastot koostuvat useista yksiköistä, ja sodankäynti on perimmiltään kilpailullinen, kahden tai useamman osapuolen välinen kamppailu. Tämä ympäristö voidaan nähdä osittain havaittavana stokastisena pelinä (POSG), jossa on kaksi joukkuetta, jotka ovat omien päätöksentekijöidensä hallinnassa. POSG:ssa peli mallinnetaan agenttien, tilojen, toimintojen, havaintojen ja tilanmuutosten todennäköisyyksien avulla. Moniagenttisen vahvistusoppimisen (MARL) algoritmit kykenevät oppimaan toimintamalleja, jotka approksimoivat POSG:n ratkaisuja. Näin ollen niitä käytetään tämän asetelman haasteiden ratkaisemiseen. Tutkimuksessa testataan kahta MARL-algoritmia, Double Deep Q-Networksia ja Proximal Policy Optimizationia, moniagenttisessa ympäristössä. Tulokset viittaavat siihen, että huolimatta ympäristön monimutkaisuudesta ja muuttuvuudesta (epästationaarisuudesta), MARL-menetelmät voivat tuottaa ja analysoida erilaisia taktisia vaihtoehtoja. Tämä auttaa päätöksentekijöitä joko todentamaan vakiintuneita taktiikoita tai tarjoamaan uusia ratkaisuja, rikastaen näin taktista suunnittelua ja toteutusta.

Description

Supervisor

Pajarinen, Jouni

Thesis advisor

Heikkonen, Jukka

Other note

Citation