Reinforcement Learning from Human Feedback and Russell’s 3 Principles for Beneficial Machines
No Thumbnail Available
Files
Aalto login required (access for Aalto Staff only).
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Author
Date
2024-02-20
Department
Major/Subject
Tietotekniikka
Mcode
SCI3027
Degree programme
Teknistieteellinen kandidaattiohjelma
Language
en
Pages
31
Series
Abstract
This Bachelor's thesis acts as a reference point for background concepts related to the \textit{learning from human feedback} research cluster in \textit{AI alignment}, and contributes to the field by specifying properties that cause an idealized form of \textit{Reinforcement Learning from Human Feedback} (RLHF) to fail to satisfy Russell's three principles for \textit{Beneficial Machines}, providing information on the extent to which RLHF will be relevant in the building of Beneficial Machines. The thesis found that, unless specifically implemented in a way that avoids certain pitfalls, there are multiple reasons the RLHF architecture fails to satisfy Russell's three principles. A key reason is the lack of an explicit distinction between the \textit{reward signal} and the \textit{actual reward} of a human, leading to models that are unaware of the distinction between maximizing the realization of human preferences, and maximizing the realization of a neural network's \textit{learned model} of human preferences. The thesis also found that some of the wordings in the principles can be interpreted in several ways, sometimes leading to ambiguity about whether or not a given system satisfies Russell's first and second principle. The thesis remarked that Russell's work seems to focus on the problem of correctly \textit{specifying complex goals}, sometimes referred to as \textit{outer alignment}, while neglecting the possibility of \textit{goal misgeneralization due to misalignment}, sometimes referred to as \textit{inner misalignment}, potentially limiting the work's relevance to the problem of aligning current and future AI systems with human values. The above issues limit the extent to which theoretical alignment benefits of learning from human feedback should be expected to be present in actual implementations of models that learn from human feedback. Further research on the extent to which Russell's principles are satisfied by different classes of AI architectures could aid in reaching a more comprehensive evaluation of the issue, and could thus help pave the way for the building of Beneficial Machines.Tämä kandidaatin tutkielma kokoaa tärkeitä konsepteja, jotka liittyvät \textit{tekoälyn linjauksen} tutkimusalan alaiseen \textit{ihmispalautteesta oppimisen} tutkimusklusteriin. Se myös kontribuoi alaan määrittämällä ominaisuuksia, jotka estävät yksinkertaista versiota \textit{Vahvistusoppiminen Ihmispalautteesta} -arkkitehtuurista täyttämästä Russellin kolmen \textit{Yleishyödyllisen Koneen} periaatetta, antaen tietoa siitä, missä määrin Vahvistusoppiminen Ihmispalautteesta -arkkitehtuuri tulee olemaan hyödyllinen Yleishyödyllisten Koneiden rakentamisessa. Työssä todettiin, että ilman erityistä, tiettyjä sudenkuoppia välttävää, toteutusta, on useita syitä, miksi Vahvistusoppiminen Ihmispalautteesta -arkkitehtuuri ei täytä Russellin kolmea periaatetta. Eräs keskeinen syy on se, ettei arkkitehtuurissa määritetä \textit{palkkiosignaalin} ja ihmisen \textit{todellisen palkkion} eroa, mikä johtaa malleihin, jotka eivät tiedä eroa ihmisen mieltymysten toteutumisen maksimoimisen, ja ihmisten mieltymyksistä \textit{opitun mallin} mukaisten asioiden toteutumisen maksimoimisen välillä. Opinnäytetyössä todettiin myös, että osa periaatteiden sanamuodoista on tulkittavissa usealla tavalla, mikä joskus johtaa epäselvyyteen siitä, täyttääkö tietty systeemi Russellin ensimmäisen ja toisen periaatteen, vai ei. Työssä todettiin, että Russellin kirjoitukset näyttävät keskittyvän \textit{monimutkaisten tavoitteiden oikein määrittämisen} ongelmaan, jota joskus myös kutsutaan \textit{ulkoiseksi linjaukseksi}, mutta jättää huomiotta \textit{väärinlinjauksesta johtuvan tavoitteeiden väärinyleistymisen} mahdollisuuden, jota joskus myös kutsutaan \textit{sisäiseksi väärinlinjaukseksi}, mikä saattaa rajoittaa Russellin kirjoitusten relevanssia nykyisten ja tulevien tekoälyjärjestelmien linjaamisessa inhimillisten arvojen kanssa. Yllä olevat seikat rajoittavat sitä, missä määrin ihmispalautteesta oppimisen teoreettisten hyötyjen voidaan odottaa ilmenevän oikean maailman toteutuksissa ihmispalautteesta oppivista malleista. Lisätutkimus siitä, missä määrin eri AI-arkkitehtuuriluokat voivat toteuttaa Russellin periaatteita, voisi tuoda kokonaisvaltaisempaa ymmärrystä yllä mainituista ongelmista, ja täten helpottaa Ylesihyödyllisten Koneiden rakentamista.Description
Supervisor
Savioja, LauriThesis advisor
De Peuter, SebastiaanKeywords
reinforcement learning, inverse reinforcement learning, cooperative inverse reinforcement learning, reinforcement learning from human feedback, aI alignment, learning from uhman preferences