Reinforcement Learning from Human Feedback and Russell’s 3 Principles for Beneficial Machines

No Thumbnail Available

Files

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.

Date

2024-02-20

Department

Major/Subject

Tietotekniikka

Mcode

SCI3027

Degree programme

Teknistieteellinen kandidaattiohjelma

Language

en

Pages

31

Series

Abstract

This Bachelor’s thesis acts as a reference point for background concepts related to the learning from human feedback research cluster in AI alignment, and contributes to the field by specifying properties that cause an idealized form of Reinforcement Learning from Human Feedback (RLHF) to fail to satisfy Russell’s three principles for Beneficial Machines, providing information on the extent to which RLHF will be relevant in the building of Beneficial Machines. The thesis found that, unless specifically implemented in a way that avoids certain pitfalls, there are multiple reasons the RLHF architecture fails to satisfy Russell’s three principles. A key reason is the lack of an explicit distinction between the reward signal and the actual reward of a human, leading to models that are unaware of the distinction between maximizing the realization of human preferences, and maximizing the realization of a neural network’s learned model of human preferences. The thesis also found that some of the wordings in the principles can be interpreted in several ways, sometimes leading to ambiguity about whether or not a given system satisfies Russell’s first and second principle. The thesis remarked that Russell’s work seems to focus on the problem of correctly specifying complex goals, sometimes referred to as outer alignment, while neglecting the possibility of goal misgeneralization due to misalignment, sometimes referred to as inner misalignment, potentially limiting the work’s relevance to the problem of aligning current and future AI systems with human values. The above issues limit the extent to which theoretical alignment benefits of learning from human feedback should be expected to be present in actual implementations of models that learn from human feedback. Further research on the extent to which Russell’s principles are satisfied by different classes of AI architectures could aid in reaching a more comprehensive evaluation of the issue, and could thus help pave the way for the building of Beneficial Machines.

Tämä kandidaatin tutkielma kokoaa tärkeitä konsepteja, jotka liittyvät tekoälyn linjauksen tutkimusalan alaiseen ihmispalautteesta oppimisen tutkimusklusteriin. Se myöskontribuoi alaan määrittämällä ominaisuuksia, jotka estävät yksinkertaista versiota Vahvistusoppiminen Ihmispalautteesta -arkkitehtuurista täyttämästä Russellin kolmen Yleishyödyllisen Koneen periaatetta, antaen tietoa siitä, missä määrin Vahvistusoppiminen Ihmispalautteesta -arkkitehtuuri tulee olemaan hyödyllinen Yleishyödyllisten Koneiden rakentamisessa. Työssä todettiin, että ilman erityistä, tiettyjä sudenkuoppia välttävää, toteutusta, on useita syitä, miksi Vahvistusoppiminen Ihmispalautteesta -arkkitehtuuri ei täytä Russellin kolmea periaatetta. Eräs keskeinen syy on se, ettei arkkitehtuurissa määritetä palkkiosignaalin ja ihmisen todellisen palkkion eroa, mikä johtaa malleihin, jotka eivät tiedä eroa ihmisen mieltymysten toteutumisen maksimoimisen, ja ihmisten mieltymyksistä opitun mallin mukaisten asioiden toteutumisen maksimoimisen välillä. Opinnäytetyössä todettiin myös, että osa periaatteiden sanamuodoista on tulkittavissa usealla tavalla, mikä joskus johtaa epäselvyyteen siitä, täyttääkö tietty systeemi Russellin ensimmäisen ja toisen periaatteen, vai ei. Työssä todettiin, että Russellin kirjoitukset näyttävät keskittyvän monimutkaisten tavoitteiden oikein määrittämisen ongelmaan, jota joskus myös kutsutaan ulkoiseksi linjaukseksi, mutta jättää huomiotta väärinlinjauksesta johtuvan tavoitteeiden väärinyleistymisen mahdollisuuden, jota joskus myös kutsutaan sisäiseksi väärinlinjaukseksi, mikä saattaa rajoittaa Russellin kirjoitusten relevanssia nykyisten ja tulevien tekoälyjärjestelmien linjaamisessa inhimillisten arvojen kanssa. Yllä olevat seikat rajoittavat sitä, missä määrin ihmispalautteesta oppimisen teoreettisten hyötyjen voidaan odottaa ilmenevän oikean maailman toteutuksissa ihmispalautteesta oppivista malleista. Lisätutkimus siitä, missä määrin eri AI-arkkitehtuuriluokat voivat toteuttaa Russellin periaatteita, voisi tuoda kokonaisvaltaisempaa ymmärrystä yllä mainituista ongelmista, ja täten helpottaa Yleishyödyllisten Koneiden rakentamista

Description

Supervisor

Savioja, Lauri

Thesis advisor

De Peuter, Sebastiaan

Keywords

reinforcement learning, inverse reinforcement learning, cooperative inverse reinforcement learning, reinforcement learning from human feedback, aI alignment, learning from uhman preferences

Other note

Citation