aalto1 untyped-item.component.html
Hierarchies, search, and generative models in sequential decision-making
Loading...
URL
Journal Title
Journal ISSN
Volume Title
School of Science |
Doctoral thesis (article-based)
| Defence date: 2025-09-26
Electronic archive copy is available via Aalto Thesis Database.
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
Major/Subject
Mcode
Degree programme
Language
en
Pages
121 + app. 141
Series
Aalto University publication series Doctoral Theses, 166/2025
Abstract
Intelligent agents trained using deep reinforcement learning (DRL) or imitation learning (IL) can achieve or even surpass expert-level performance in various controlled settings. However, translating this success to real-world tasks remains difficult, especially in high-stakes domains such as cybersecurity, robotics, and autonomous driving (AD). Underlying issues include poor sample efficiency and brittle long-horizon reasoning. Basic IL frequently fails to capture complex distributions, such as human behavior.
This thesis aims to tackle these limitations by developing algorithms that rely on hierarchical learning, search-based planning, and generative modeling, with discrete latent representations as a technical foundation. Hierarchical learning can shorten the planning horizon in extended tasks. Search-based planning can support reasoning and exploration. Generative models, particularly diffusion models, can represent multimodal distributions effectively in IL. Adversarial DRL, in turn, can be used to evaluate safety-critical systems.
First, the thesis builds adversarial DRL agents to evaluate safety-critical systems. These agents are applied to operating system privilege escalation and pedestrian-collision generation to test leading AD algorithms. Second, it introduces a hierarchical IL algorithm that discovers data-driven hierarchies and solves long-horizon tasks via subgoal search. Third, it presents a search-based planner and sample-efficient world model learning for model predictive control (MPC). Fourth, the thesis empowers diffusion policies by conditioning them with driving styles learned from human carfollowing data using contrastive learning. A recurring theme throughout the thesis is the broad utility of discrete representations: capturing temporal abstraction in hierarchical learning, system state in MPC, and latent driving styles for generative modeling.
Empirical evaluations across several domains suggest that combining hierarchy, search-based planning, and generative models can mitigate key obstacles in DRL and IL. Therefore, this thesis contributes tools and insights that could inform the design of more capable and reliable AI systems for practical problems in domains such as robotics, autonomous driving, and cybersecurity.
Älykkäät agentit, jotka on koulutettu syvävahvistus- tai imitaatio-oppimisella, suoriutuvat monista hyvin määritellyistä tehtävistä yhtä hyvin tai jopa paremmin kuin asiantuntijat. Tämän suorituskyvyn siirtäminen reaalimaailman ongelmiin on kuitenkin osoittautunut vaikeaksi erityisesti korkean riskin sovellusalueilla, kuten kyberturvallisuudessa, robotiikassa ja itseohjautuvissa ajoneuvoissa. Nämä oppimismenetelmät vaativat epäkäytännöllisen suuria määriä opetusaineistoa, ja niillä on heikkouksia pitkän tähtäimen päättelyssä. Perusimitaatio-oppiminen ei myöskään usein pysty mallintamaan monimutkaisia jakaumia, kuten ihmisen käyttäytymistä.
Tämä väitöskirja pyrkii löytämään ratkaisuja oppimismenetelmien rajoitteisiin kehittämällä algoritmeja, jotka hyödyntävät hierarkkista oppimista, hakupohjaista suunnittelua ja generatiivista mallinnusta. Diskreetit esitykset ovat tekninen perusta, jonka varaan monet väitöskirjan algoritmeista rakentuvat. Hierarkkinen oppiminen auttaa pilkkomaan pitkiä tehtäviä hallittaviin osiin, kun taas hakupohjainen suunnittelu voi tukea päättelyä ja eksploraatiota. Generatiiviset mallit, erityisesti diffuusiomallit, voivat mallintaa monimutkaisia jakaumia tehokkaasti imitaatiooppimisessa. Adversariaaliset agentit voivat puolestaan auttaa turvallisuuskriittisten järjestelmien arvioinnissa.
Väitöskirjassa kehitetään adversariaalisia syvävahvistusoppimisagentteja, joilla testataan turvallisuuskriittisten järjestelmien luotettavuutta. Näitä agentteja sovelletaan muun muassa käyttöoikeuksien korottamiseen käyttöjärjestelmissä ja jalankulkijoihin kohdistuvien törmäysten simulointiin itseohjautuvien ajoneuvojen algoritmien testaamiseksi. Työssä esitellään hierarkkinen imitaatio-oppimisalgoritmi, joka oppii hierarkioita aineistosta ja ratkaisee pitkän tähtäimen tehtäviä välitavoitteiden avulla. Väitöskirjassa kehitetään uusi suunnittelualgoritmi ja näytetehokas algoritmi ympäristön dynamiikan mallintamiseen. Nämä mahdollistavat tehokkaan mallipohjaisen säädön. Väitöskirjassa parannetaan diffuusiomalleja yhdistämällä niihin ihmiskuljettajien seuraamisaineistosta kontrastiivisella oppimisella tunnistettuja ajotyylejä. Väitöskirjan keskeinen teema on diskreettien esitysten monikäyttöisyys. Diskreetit esitykset auttavat muun muassa ajallisen abstraktion mallintamisessa hierarkkisessa oppimisessa, järjestelmän tilan kuvaamisessa suunnittelussa ja ajotyylien edustamisessa generatiivisille malleille.
Empiiriset tulokset monissa ongelmissa osoittavat, että hierarkkiset rakenteet, suunnittelu ja generatiivinen mallinnus voivat auttaa ratkaisemaan syvävahvistusoppimisen ja imitaatio-oppimisen keskeisiä haasteita. Väitöskirja tarjoaa työkaluja ja oivalluksia, jotka voivat vaikuttaa turvallisempien ja älykkäämpien tekoälyjärjestelmien kehitykseen käytännön ongelmien ratkaisemiseksi robotiikan, itseohjautuvien ajoneuvojen ja kyberturvallisuuden kaltaisilla sovellusalueilla.
Description
Supervising professor
Marttinen, Pekka, Assoc. Prof., Aalto University, Department of Computer Science, FinlandThesis advisor
Pajarinen, Joni, Assoc. Prof., Aalto University, Department of Electrical Engineering and Automation, FinlandIlin, Alexander, Dr., System 2 AI, Finland
Keywords
deep reinforcement learning, imitation learning, hierarchical reinforcement learning, planning and search, model-based reinforcement learning, discrete representation learning, adversarial reinforcement learning, syvävahvistusoppiminen, imitaatio-oppiminen, hierarkkinen vahvistusoppiminen, suunnittelu ja haku, mallipohjainen vahvistusoppiminen, diskreettien esitysten oppiminen, adversariaalinen vahvistusoppiminen
Other note
Parts
- [Publication 1]: Kujanpää, K., Victor, W., & Ilin, A. Automating Privilege Escalation with Deep Reinforcement Learning. In Proceedings of the 14th ACM Workshop on Artificial Intelligence and Security, Virtual Event, Republic of Korea, pp. 157–168, November 2021.
DOI: 10.1145/3474369.3486877 View at publisher
- [Publication 2]: Kujanpää, K., Pajarinen, J., & Ilin, A. Hierarchical Imitation Learning with Vector Quantized Models. In Proceedings of the 40th International Conference on Machine Learning, Honolulu, Hawaii, USA, pp. 17896–17919, July 2023.
Full text in Acris/Aaltodoc: https://urn.fi/URN:NBN:fi:aalto-202309135825
- [Publication 3]: Kujanpää, K., Pajarinen, J., & Ilin, A. Hybrid Search for Efficient Planning with Completeness Guarantees. In Advances in Neural Information Processing Systems 36, New Orleans, Louisiana, USA, pp. 22688–22701, December 2023. https://papers.nips.cc/paper_files/paper/2023/hash/46d26daeb05fbbcfe5f3d8f7ca756e16-Abstract-Conference.html
- [Publication 4]: Kujanpää, K.*, Babadi, A.*, Zhao, Y., Kannala, J., Ilin, A., & Pajarinen, J. Continuous Monte Carlo Graph Search. In Proceedings of the 23rd International Conference on Autonomous Agents and Multiagent Systems, Auckland, New Zealand, pp. 1047–1056, May 2024.
Full text in Acris/Aaltodoc: https://urn.fi/URN:NBN:fi:aalto-202408285917
- [Publication 5]: Kujanpää, K., Baimukashev, D., Munir, F., Azam, S., Kucner, T. P., Pajarinen, J., & Kyrki, V. Discrete Contrastive Learning for Diffusion Policies in Autonomous Driving. In Proceedings of the 2025 IEEE International Conference on Robotics and Automation, Atlanta, Georgia, USA, May 2025.
- [Publication 6]: Yang, Y., Kujanpää, K., Babadi, A., Pajarinen, J., & Ilin, A. Suicidal Pedestrian: Generation of Safety-Critical Scenarios for Autonomous Vehicles. In Proceedings of the 2023 IEEE 26th International Conference on Intelligent Transportation Systems, Bilbao, Spain, September 2023.
DOI: 10.1109/ITSC57777.2023.10422034 View at publisher
- [Publication 7]: Scannell, A., Nakhaei, M.*, Kujanpää, K.*, Zhao, Y., Luck, K. S., Solin, A., & Pajarinen, J. Discrete Codebook World Models for Continuous Control. In Proceedings of the 13th International Conference on Learning Representations, Singapore, April 2025.
Full text in Acris/Aaltodoc: https://urn.fi/URN:NBN:fi:aalto-202509037103