Extensions of Monte Carlo Tree Search into Continuous Action Spaces

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2022-06-13
Department
Major/Subject
Computer Science
Mcode
SCI3042
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
40 + 1
Series
Abstract
This thesis explored Monte Carlo Tree Search (MCTS) algorithm and its extensions to continuous action spaces. MCTS is a relevant search algorithm used in cutting edge AI design in discrete domains. However, its extensions to continuous action spaces have not been comprehensibly listed and categorized. Furthermore empirical comparison of their performance has been incomplete. This thesis consisted of a literary survey and an empirical comparison of MCTS extensions. The aim was to find out how the different methods work, where they can be applied and how they compare to each other. In addition, the performance of the extensions was compared against each other and other continuous non-MCTS algorithms. The survey found twelve prominent MCTS extensions of varying complexity and performance. These extensions could be categorized into four general approaches: Manual/Informed discretization, Unpruning, Action optimization and Policy optimization. Three of these extension methods were benchmarked in the empirical study: Discrete Upper Confidence Bounds applied to Trees, Progressive Widening and Value-Gradient Upper Confidence Trees. In addition, two baseline algorithms called Random Branching Depth and Covariance Matrix Adaptation Evolution Strategy (CMA-ES) were used to further evaluate the performance of MCTS methods. The results of the performance study suggest that Progressive Widening is the best general purpose MCTS extension when using offline planning in continuous control settings. The results also seem to suggest that MCTS extensions could perform better than CMA-ES when action dimensionality and/or planning horizon depth increases. Further research could be conducted by including more extensions in the performance study. In addition online planning and time limited open loop planning performance also provides an interesting research direction when considering usage in real-time problems.

Tämä maisterintyö tutki Monte Carlo Tree Search (MCTS) hakualgoritmiä ja sen laajentamista jatkuviin toiminta-avaruuksiin. MCTS on suosittu hakualgoritmi, jolla on tekoälytutkimuksessa saavutettu osa parhaista tuloksista diskreeteissä toiminta-avaruuksissa, kuten lautapeleissä. MCTS on onnistuneesti laajennettu toimimaan myös jatkuvissa toiminta-avaruuksissa, mutta näitä laajennusmetodeja ei ole tyhjentävästi listattu tai kategorisoitu. Lisäksi empiirinen tutkimus metodien toimintakyvystä on puutteellista. Tämä maisterityö koostuu kirjallisuuskatsauksesta sekä empiirisestä tutkimuksesta. Työn tarkoituksena on löytää miten metodit toimivat, missä niitä voi soveltaa ja miten ne vertautuvat toisiinsa. Tämän lisäksi laajennusmetodien toimintakykyä verrataan toisiinsa sekä myös muihin algoritmeihin, joita käytetään jatkuvissa toiminta-avaruuksissa. Kirjallisuuskatsauksessa löydettiin kaksitoista laajennusmenetelmää, jotka voitiin kategorisoida neljään yleiseen lähestymistapaan: manuaalinen/tietoon perustuva diskretisointi, toiminta-avaruuden kasvatus, toimioptimointi sekä toimintaperiaateoptimointi. Empiiriseen tutkimukseen valittiin kolme menetelmää: Discrete Upper Confidence Bounds applied to Trees, Progressive Widening ja Value-Gradient Upper Confidence Trees. Lisäksi tutkimuksessa käytettiin kahta vertailualgoritmia, jotka eivät perustu MCTS algoritmiin: Covariance Matrix Adaptation Evolution Strategy (CMA-ES) sekä Random Branching Depth. Tutkimuksen tulokset viittaavat siihen, että Progressive Widening on paras MCTS laajennusmenetelmä yleiseen käyttöön jatkuvissa toiminta-avaruuksissa. Tulokset myös vihjaavat, että MCTS menetelmät saattavat toimia paremmin kuin CMA-ES, kun toiminta-avaruuden ja/tai suunnitteluhorisontin pituus kasvaa. Tulevaisuudessa olisi kiinnostavaa nähdä laajempaa tutkimusta eri menetelmien välillä. Esimerkiksi toimintakyky aikarajoitteisessa jatkuvassa toiminta-avaruudessa on tärkeää, kun halutaan toimia tosiaikaisten ongelmien parissa.
Description
Supervisor
Hämäläinen, Perttu
Thesis advisor
Acharya, Aditya
Keywords
Monte Carlo tree search, MCTS, continuous action spaces, continuous control, benchmark
Other note
Citation