aalto1 untyped-item.component.html

Hierarchies, search, and generative models in sequential decision-making

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Doctoral thesis (article-based) | Defence date: 2025-09-26
Electronic archive copy is available via Aalto Thesis Database.

Date

Major/Subject

Mcode

Degree programme

Language

en

Pages

121 + app. 141

Series

Aalto University publication series Doctoral Theses, 166/2025

Abstract

Intelligent agents trained using deep reinforcement learning (DRL) or imitation learning (IL) can achieve or even surpass expert-level performance in various controlled settings. However, translating this success to real-world tasks remains difficult, especially in high-stakes domains such as cybersecurity, robotics, and autonomous driving (AD). Underlying issues include poor sample efficiency and brittle long-horizon reasoning. Basic IL frequently fails to capture complex distributions, such as human behavior. This thesis aims to tackle these limitations by developing algorithms that rely on hierarchical learning, search-based planning, and generative modeling, with discrete latent representations as a technical foundation. Hierarchical learning can shorten the planning horizon in extended tasks. Search-based planning can support reasoning and exploration. Generative models, particularly diffusion models, can represent multimodal distributions effectively in IL. Adversarial DRL, in turn, can be used to evaluate safety-critical systems. First, the thesis builds adversarial DRL agents to evaluate safety-critical systems. These agents are applied to operating system privilege escalation and pedestrian-collision generation to test leading AD algorithms. Second, it introduces a hierarchical IL algorithm that discovers data-driven hierarchies and solves long-horizon tasks via subgoal search. Third, it presents a search-based planner and sample-efficient world model learning for model predictive control (MPC). Fourth, the thesis empowers diffusion policies by conditioning them with driving styles learned from human carfollowing data using contrastive learning. A recurring theme throughout the thesis is the broad utility of discrete representations: capturing temporal abstraction in hierarchical learning, system state in MPC, and latent driving styles for generative modeling. Empirical evaluations across several domains suggest that combining hierarchy, search-based planning, and generative models can mitigate key obstacles in DRL and IL. Therefore, this thesis contributes tools and insights that could inform the design of more capable and reliable AI systems for practical problems in domains such as robotics, autonomous driving, and cybersecurity.

Älykkäät agentit, jotka on koulutettu syvävahvistus- tai imitaatio-oppimisella, suoriutuvat monista hyvin määritellyistä tehtävistä yhtä hyvin tai jopa paremmin kuin asiantuntijat. Tämän suorituskyvyn siirtäminen reaalimaailman ongelmiin on kuitenkin osoittautunut vaikeaksi erityisesti korkean riskin sovellusalueilla, kuten kyberturvallisuudessa, robotiikassa ja itseohjautuvissa ajoneuvoissa. Nämä oppimismenetelmät vaativat epäkäytännöllisen suuria määriä opetusaineistoa, ja niillä on heikkouksia pitkän tähtäimen päättelyssä. Perusimitaatio-oppiminen ei myöskään usein pysty mallintamaan monimutkaisia jakaumia, kuten ihmisen käyttäytymistä. Tämä väitöskirja pyrkii löytämään ratkaisuja oppimismenetelmien rajoitteisiin kehittämällä algoritmeja, jotka hyödyntävät hierarkkista oppimista, hakupohjaista suunnittelua ja generatiivista mallinnusta. Diskreetit esitykset ovat tekninen perusta, jonka varaan monet väitöskirjan algoritmeista rakentuvat. Hierarkkinen oppiminen auttaa pilkkomaan pitkiä tehtäviä hallittaviin osiin, kun taas hakupohjainen suunnittelu voi tukea päättelyä ja eksploraatiota. Generatiiviset mallit, erityisesti diffuusiomallit, voivat mallintaa monimutkaisia jakaumia tehokkaasti imitaatiooppimisessa. Adversariaaliset agentit voivat puolestaan auttaa turvallisuuskriittisten järjestelmien arvioinnissa. Väitöskirjassa kehitetään adversariaalisia syvävahvistusoppimisagentteja, joilla testataan turvallisuuskriittisten järjestelmien luotettavuutta. Näitä agentteja sovelletaan muun muassa käyttöoikeuksien korottamiseen käyttöjärjestelmissä ja jalankulkijoihin kohdistuvien törmäysten simulointiin itseohjautuvien ajoneuvojen algoritmien testaamiseksi. Työssä esitellään hierarkkinen imitaatio-oppimisalgoritmi, joka oppii hierarkioita aineistosta ja ratkaisee pitkän tähtäimen tehtäviä välitavoitteiden avulla. Väitöskirjassa kehitetään uusi suunnittelualgoritmi ja näytetehokas algoritmi ympäristön dynamiikan mallintamiseen. Nämä mahdollistavat tehokkaan mallipohjaisen säädön. Väitöskirjassa parannetaan diffuusiomalleja yhdistämällä niihin ihmiskuljettajien seuraamisaineistosta kontrastiivisella oppimisella tunnistettuja ajotyylejä. Väitöskirjan keskeinen teema on diskreettien esitysten monikäyttöisyys. Diskreetit esitykset auttavat muun muassa ajallisen abstraktion mallintamisessa hierarkkisessa oppimisessa, järjestelmän tilan kuvaamisessa suunnittelussa ja ajotyylien edustamisessa generatiivisille malleille. Empiiriset tulokset monissa ongelmissa osoittavat, että hierarkkiset rakenteet, suunnittelu ja generatiivinen mallinnus voivat auttaa ratkaisemaan syvävahvistusoppimisen ja imitaatio-oppimisen keskeisiä haasteita. Väitöskirja tarjoaa työkaluja ja oivalluksia, jotka voivat vaikuttaa turvallisempien ja älykkäämpien tekoälyjärjestelmien kehitykseen käytännön ongelmien ratkaisemiseksi robotiikan, itseohjautuvien ajoneuvojen ja kyberturvallisuuden kaltaisilla sovellusalueilla.

Description

Supervising professor

Marttinen, Pekka, Assoc. Prof., Aalto University, Department of Computer Science, Finland

Thesis advisor

Pajarinen, Joni, Assoc. Prof., Aalto University, Department of Electrical Engineering and Automation, Finland
Ilin, Alexander, Dr., System 2 AI, Finland

Other note

Parts

  • [Publication 1]: Kujanpää, K., Victor, W., & Ilin, A. Automating Privilege Escalation with Deep Reinforcement Learning. In Proceedings of the 14th ACM Workshop on Artificial Intelligence and Security, Virtual Event, Republic of Korea, pp. 157–168, November 2021.
    DOI: 10.1145/3474369.3486877 View at publisher
  • [Publication 2]: Kujanpää, K., Pajarinen, J., & Ilin, A. Hierarchical Imitation Learning with Vector Quantized Models. In Proceedings of the 40th International Conference on Machine Learning, Honolulu, Hawaii, USA, pp. 17896–17919, July 2023.
  • [Publication 3]: Kujanpää, K., Pajarinen, J., & Ilin, A. Hybrid Search for Efficient Planning with Completeness Guarantees. In Advances in Neural Information Processing Systems 36, New Orleans, Louisiana, USA, pp. 22688–22701, December 2023. https://papers.nips.cc/paper_files/paper/2023/hash/46d26daeb05fbbcfe5f3d8f7ca756e16-Abstract-Conference.html
  • [Publication 4]: Kujanpää, K.*, Babadi, A.*, Zhao, Y., Kannala, J., Ilin, A., & Pajarinen, J. Continuous Monte Carlo Graph Search. In Proceedings of the 23rd International Conference on Autonomous Agents and Multiagent Systems, Auckland, New Zealand, pp. 1047–1056, May 2024.
  • [Publication 5]: Kujanpää, K., Baimukashev, D., Munir, F., Azam, S., Kucner, T. P., Pajarinen, J., & Kyrki, V. Discrete Contrastive Learning for Diffusion Policies in Autonomous Driving. In Proceedings of the 2025 IEEE International Conference on Robotics and Automation, Atlanta, Georgia, USA, May 2025.
  • [Publication 6]: Yang, Y., Kujanpää, K., Babadi, A., Pajarinen, J., & Ilin, A. Suicidal Pedestrian: Generation of Safety-Critical Scenarios for Autonomous Vehicles. In Proceedings of the 2023 IEEE 26th International Conference on Intelligent Transportation Systems, Bilbao, Spain, September 2023.
    DOI: 10.1109/ITSC57777.2023.10422034 View at publisher
  • [Publication 7]: Scannell, A., Nakhaei, M.*, Kujanpää, K.*, Zhao, Y., Luck, K. S., Solin, A., & Pajarinen, J. Discrete Codebook World Models for Continuous Control. In Proceedings of the 13th International Conference on Learning Representations, Singapore, April 2025.

Citation

Endorsement

Review

Supplemented By

Referenced By