Real-time and sample-efficient learning of computationally rational user models

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorKaski, Samuel, Prof., Aalto University, Department of Computer Science, Finland
dc.contributor.authorKeurulainen, Antti
dc.contributor.departmentTietotekniikan laitosfi
dc.contributor.departmentDepartment of Computer Scienceen
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.schoolSchool of Scienceen
dc.contributor.supervisorKaski, Samuel, Prof., Aalto University, Department of Computer Science, Finland
dc.date.accessioned2024-03-13T10:00:14Z
dc.date.available2024-03-13T10:00:14Z
dc.date.defence2024-03-26
dc.date.issued2024
dc.description.abstractTo effectively collaborate with humans, Artificial Intelligence (AI) systems must understand human behavior and the factors influencing it, including their goals, preferences, and abilities. Interactions with humans are typically costly, and in many real-life situations, AI must adapt to human behavior after only a few interactions. Additionally, when AI interacts with humans to learn about their behavior, the interactions need to be conducted without any noticeable delay for the human, which in turn necessitates adaptation in real-time. This thesis investigates how an AI system can learn about other agents in a sample-efficient and real-time manner, using methods based on reinforcement learning. The first contribution of this thesis is a method for learning representations of goal-driven agents' behaviors with neural networks from incomplete observations, showing that they can be used for improving performance in cooperative decision-making tasks. The second contribution concerns the creation of an automated method for producing task distributions and related ground truth data for training a meta-learner to assess the skill level and adapt quickly to the behavior of a cooperating partner. The third contribution presents a novel method for designing informative experiments for estimating the parameters of simulation-based user models without closed-form likelihood functions, and which models are grounded in cognitive science. This method simultaneously amortizes the estimation of these parameters and the designing of experiments. These contributions cover a wide range of settings where useful representations of behavior for improving cooperation are learned, along with the efficient learning of complex user models. The implications of the methods developed, as well as their strengths and limitations, are discussed.en
dc.description.abstractTehdäkseen tehokasta yhteistyötä ihmisten kanssa, tekoälyjärjestelmien on ymmärrettävä ihmisen käyttäytymistä ja sen taustalla vaikuttavia tekijöitä, kuten tavoitteita, mieltymyksiä ja kykyjä. Koneiden ja ihmisten väliset vuorovaikutukset tuottavat tyypillisesti vain rajoitetun määrän näytteitä, joten monissa käytännön tilanteissa tekoälyn on kyettävä ymmärtämään ihmisen tavoitteita ja käyttäytymistä vain muutaman interaktion perusteella. Lisäksi tekoälyn on kyettävä tekemään päättelyä ihmisen käyttäytymisestä reaaliaikaisesti ilman viiveitä, jotka saattaisivat häiritä koneen ja ihmisen välistä vuorovaikutusta. Tässä väitöskirjassa tutkitaan, kuinka tekoälyjärjestelmä voi oppia havainnoimaan ja päättelemään toisen osapuolen käyttäytymisestä reaaliaikaisesti ja näytetehokkaasti hyödyntäen vahvistusoppimiseen perustuvia menetelmiä. Väitöskirjan ensimmäinen tulos on menetelmä, jossa neuroverkkojen avulla opitaan luomaan representaatioita toisen osapuolen käyttäytymistä epätäydellisistä havainnoista. Näitä representaatioita voidaan edelleen käyttää parantamaan suorituskykyä yhteistyötä vaativissa päätöksentekotehtävissä. Toinen tulos on menetelmä, jossa luodaan automatisoidusti tehtäväjakauma sekä annotoituja näytteitä metaoppijan harjoittamista varten. Metaoppijan avulla tekoäly kykenee nopeasti arvioimaan toisen osapuolen taitotasoa ja mukauttaa omaa käyttäytymistään yhteistyön parantamiseksi. Kolmas tulos on uusi menetelmä, jossa tekoäly kykenee tuottamaan spesifikaation informatiiviselle kokeelle simulointipohjaisen käyttäjämallin parametrien estimoimiseen asetelmassa, jossa kognitiotieteeseen perustuvan käyttäjämallin parametrit voidaan estimoida ilman uskottavuusfunktion suljetun muodon ratkaisua. Esitetyssä menetelmässä tuotetaan samanaikaisesti käyttäjämallin parametrien estimaatti sekä informatiivisen kokeen spesifikaatio neuroverkkojen avulla. Väitöskirjassa kehitetyt menetelmät kattavat laajasti asetelmia, joissa tekoäly oppii tuottamaan representaatioita toisen osapuolen käyttäytymisestä parantaakseen yhteistyötä, sekä estimoimaan monimutkaisten käyttäjämallien parametreja. Väitöskirjassa arvioidaan myös kehitettyjen menetelmien hyödynnettävyyttä sekä luodaan katsaus kehitettyjen menetelmien vahvuuksista ja rajoituksista.fi
dc.format.extent88 + app. 58
dc.format.mimetypeapplication/pdfen
dc.identifier.isbn978-952-64-1732-5 (electronic)
dc.identifier.isbn978-952-64-1731-8 (printed)
dc.identifier.issn1799-4942 (electronic)
dc.identifier.issn1799-4934 (printed)
dc.identifier.issn1799-4934 (ISSN-L)
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/127012
dc.identifier.urnURN:ISBN:978-952-64-1732-5
dc.language.isoenen
dc.opnWilliamson, John, Dr., University of Glasgow, UK
dc.publisherAalto Universityen
dc.publisherAalto-yliopistofi
dc.relation.haspart[Publication 1]: Antti Keurulainen, Isak Westerlund, Samuel Kaski, Alexander Ilin. Learning to Assist Agents by Observing Them. In Artificial Neural Networks and Machine Learning–ICANN 2021: 30th International Conference on Artificial Neural Networks, Bratislava, Slovakia, pp. 519-530 September 2021. DOI: 10.1007/978-3-030-86380-7_42
dc.relation.haspart[Publication 2]: Antti Keurulainen, Isak Westerlund, Ariel Kwiatkowski, Samuel Kaski, Alexander Ilin. Behaviour-conditioned policies for cooperative reinforcement learning tasks. In Artificial Neural Networks and Machine Learning–ICANN 2021: 30th International Conference on Artificial Neural Networks, Bratislava, Slovakia, pp. 493-504, September 2021. DOI: 10.1007/978-3-030-86380-7_40
dc.relation.haspart[Publication 3]: Antti Keurulainen, Isak Westerlund, Oskar Keurulainen, Andrew Howes. Amortised Experimental Design and Parameter Estimation for User Models of Pointing. In Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems, Hamburg, pp. 1-17, April 2023. Full text in Acris/Aaltodoc: https://urn.fi/URN:NBN:fi:aalto-202306304353. DOI: 10.1145/3544548.3581483
dc.relation.haspart[Publication 4]: Antti Keurulainen, Isak Westerlund, Oskar Keurulainen, Andrew Howes. Amortised Design Optimization for Item Response Theory. In International Conference on Artificial Intelligence in Education, Tokyo, pp. 359-364, July 2023. DOI: 10.1007/978-3-031-36336-8_56
dc.relation.ispartofseriesAalto University publication series DOCTORAL THESESen
dc.relation.ispartofseries61/2024
dc.revRafferty, Anna, Prof., Carleton College, USA
dc.revWang, Xiaoyang, Dr., University of Exeter, UK
dc.subject.keyworddeep learningen
dc.subject.keywordreinforcement learningen
dc.subject.keywordsyvät neuroverkotfi
dc.subject.keywordvahvistusoppiminenfi
dc.subject.otherComputer scienceen
dc.titleReal-time and sample-efficient learning of computationally rational user modelsen
dc.titleReaaliaikaisia ja näytetehokkaita menetelmiä rationaalisten käyttäjämallien oppimiseenfi
dc.typeG5 Artikkeliväitöskirjafi
dc.type.dcmitypetexten
dc.type.ontasotDoctoral dissertation (article-based)en
dc.type.ontasotVäitöskirja (artikkeli)fi
local.aalto.acrisexportstatuschecked 2024-03-28_0910
local.aalto.archiveyes
local.aalto.formfolder2024_03_13_klo_06_55

Files

Original bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
isbn9789526417325.pdf
Size:
2.42 MB
Format:
Adobe Portable Document Format