Real-time and sample-efficient learning of computationally rational user models

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Science | Doctoral thesis (article-based) | Defence date: 2024-03-26
Date
2024
Major/Subject
Mcode
Degree programme
Language
en
Pages
88 + app. 58
Series
Aalto University publication series DOCTORAL THESES, 61/2024
Abstract
To effectively collaborate with humans, Artificial Intelligence (AI) systems must understand human behavior and the factors influencing it, including their goals, preferences, and abilities. Interactions with humans are typically costly, and in many real-life situations, AI must adapt to human behavior after only a few interactions. Additionally, when AI interacts with humans to learn about their behavior, the interactions need to be conducted without any noticeable delay for the human, which in turn necessitates adaptation in real-time. This thesis investigates how an AI system can learn about other agents in a sample-efficient and real-time manner, using methods based on reinforcement learning. The first contribution of this thesis is a method for learning representations of goal-driven agents' behaviors with neural networks from incomplete observations, showing that they can be used for improving performance in cooperative decision-making tasks. The second contribution concerns the creation of an automated method for producing task distributions and related ground truth data for training a meta-learner to assess the skill level and adapt quickly to the behavior of a cooperating partner. The third contribution presents a novel method for designing informative experiments for estimating the parameters of simulation-based user models without closed-form likelihood functions, and which models are grounded in cognitive science. This method simultaneously amortizes the estimation of these parameters and the designing of experiments. These contributions cover a wide range of settings where useful representations of behavior for improving cooperation are learned, along with the efficient learning of complex user models. The implications of the methods developed, as well as their strengths and limitations, are discussed.

Tehdäkseen tehokasta yhteistyötä ihmisten kanssa, tekoälyjärjestelmien on ymmärrettävä ihmisen käyttäytymistä ja sen taustalla vaikuttavia tekijöitä, kuten tavoitteita, mieltymyksiä ja kykyjä. Koneiden ja ihmisten väliset vuorovaikutukset tuottavat tyypillisesti vain rajoitetun määrän näytteitä, joten monissa käytännön tilanteissa tekoälyn on kyettävä ymmärtämään ihmisen tavoitteita ja käyttäytymistä vain muutaman interaktion perusteella. Lisäksi tekoälyn on kyettävä tekemään päättelyä ihmisen käyttäytymisestä reaaliaikaisesti ilman viiveitä, jotka saattaisivat häiritä koneen ja ihmisen välistä vuorovaikutusta. Tässä väitöskirjassa tutkitaan, kuinka tekoälyjärjestelmä voi oppia havainnoimaan ja päättelemään toisen osapuolen käyttäytymisestä reaaliaikaisesti ja näytetehokkaasti hyödyntäen vahvistusoppimiseen perustuvia menetelmiä. Väitöskirjan ensimmäinen tulos on menetelmä, jossa neuroverkkojen avulla opitaan luomaan representaatioita toisen osapuolen käyttäytymistä epätäydellisistä havainnoista. Näitä representaatioita voidaan edelleen käyttää parantamaan suorituskykyä yhteistyötä vaativissa päätöksentekotehtävissä. Toinen tulos on menetelmä, jossa luodaan automatisoidusti tehtäväjakauma sekä annotoituja näytteitä metaoppijan harjoittamista varten. Metaoppijan avulla tekoäly kykenee nopeasti arvioimaan toisen osapuolen taitotasoa ja mukauttaa omaa käyttäytymistään yhteistyön parantamiseksi. Kolmas tulos on uusi menetelmä, jossa tekoäly kykenee tuottamaan spesifikaation informatiiviselle kokeelle simulointipohjaisen käyttäjämallin parametrien estimoimiseen asetelmassa, jossa kognitiotieteeseen perustuvan käyttäjämallin parametrit voidaan estimoida ilman uskottavuusfunktion suljetun muodon ratkaisua. Esitetyssä menetelmässä tuotetaan samanaikaisesti käyttäjämallin parametrien estimaatti sekä informatiivisen kokeen spesifikaatio neuroverkkojen avulla. Väitöskirjassa kehitetyt menetelmät kattavat laajasti asetelmia, joissa tekoäly oppii tuottamaan representaatioita toisen osapuolen käyttäytymisestä parantaakseen yhteistyötä, sekä estimoimaan monimutkaisten käyttäjämallien parametreja. Väitöskirjassa arvioidaan myös kehitettyjen menetelmien hyödynnettävyyttä sekä luodaan katsaus kehitettyjen menetelmien vahvuuksista ja rajoituksista.
Description
Supervising professor
Kaski, Samuel, Prof., Aalto University, Department of Computer Science, Finland
Thesis advisor
Kaski, Samuel, Prof., Aalto University, Department of Computer Science, Finland
Keywords
deep learning, reinforcement learning, syvät neuroverkot, vahvistusoppiminen
Other note
Parts
  • [Publication 1]: Antti Keurulainen, Isak Westerlund, Samuel Kaski, Alexander Ilin. Learning to Assist Agents by Observing Them. In Artificial Neural Networks and Machine Learning–ICANN 2021: 30th International Conference on Artificial Neural Networks, Bratislava, Slovakia, pp. 519-530 September 2021.
    DOI: 10.1007/978-3-030-86380-7_42 View at publisher
  • [Publication 2]: Antti Keurulainen, Isak Westerlund, Ariel Kwiatkowski, Samuel Kaski, Alexander Ilin. Behaviour-conditioned policies for cooperative reinforcement learning tasks. In Artificial Neural Networks and Machine Learning–ICANN 2021: 30th International Conference on Artificial Neural Networks, Bratislava, Slovakia, pp. 493-504, September 2021.
    DOI: 10.1007/978-3-030-86380-7_40 View at publisher
  • [Publication 3]: Antti Keurulainen, Isak Westerlund, Oskar Keurulainen, Andrew Howes. Amortised Experimental Design and Parameter Estimation for User Models of Pointing. In Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems, Hamburg, pp. 1-17, April 2023.
    DOI: 10.1145/3544548.3581483 View at publisher
  • [Publication 4]: Antti Keurulainen, Isak Westerlund, Oskar Keurulainen, Andrew Howes. Amortised Design Optimization for Item Response Theory. In International Conference on Artificial Intelligence in Education, Tokyo, pp. 359-364, July 2023.
    DOI: 10.1007/978-3-031-36336-8_56 View at publisher
Citation