Laajojen kielimallien ja LLM-sovellusten arviointi

No Thumbnail Available

Files

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.

Date

2024-09-18

Department

Major/Subject

Informaatioverkostot

Mcode

SCI3026

Degree programme

Teknistieteellinen kandidaattiohjelma

Language

fi

Pages

46

Series

Abstract

Laajojen kielimallien kehittyneet kyvyt asettavat haasteita niiden toiminnan arvioimiselle. LLM-mallien suorituskyky luonnollisen kielen tehtävissä edellyttää, että arviointimenetelmät kykenevät mittaamaan tulosteiden semanttisia ominaisuuksia. Käytössä on monia arviointimenetelmiä, joiden valinnalla on merkittävä vaikutus arvioinnin luotettavuuteen. LLM-mallien hyödyntäminen käytännön sovelluksissa, kuten hakukoneissa ja virtuaaliassistenteissa, vaatii LLM-sovellusten arviointia niiden luotettavan toiminnan varmistamiseksi. Tämä kirjallisuuskatsauksena toteutettu kandidaatintyö luo lukijalle kattavan kuvan LLM-mallien arvioinnin nykytilasta, haasteista ja tulevaisuudesta. Lisäksi työ esittelee LLM-sovellusten arvioinnin haasteita ja kehitystä. Työ esittää tulosten perusteella pohdintoja mahdollisista tulevaisuuden kehityskuluista LLM-mallien ja niitä hyödyntävien sovellusten arvioinnin saralla. LLM-mallien arvioinnissa keskitytään mittaamaan mallien suorituskykyä ja niiden tulosteiden oikeellisuutta. Keinoina ovat erityisesti käsin tehtävä arviointi ja automaattiset arviointimenetelmät, kuten arvioinnin suorittaminen kielimallilla. Ihmisen tekemä arviointi on laadukasta mutta tehotonta, kun taas automaattiset menetelmät ovat tehokkaita mutta tulosten varmentaminen on haasteellista. Menetelmien hyödyt yhdistyvät kielimalliavusteisessa arvioinnissa, jossa ihminen ja kielimalli suorittavat eri osia arvioinnista. Haasteina arvioinnissa on kriteerien ja menetelmien valinnan alttius virheille ja prosessin standardoimattomuus LLM-sovellusten arvioinnissa on oleellista huomioida sovellusten käyttökonteksti sekä eettiset näkökulmat, kuten käytettävyys ja tasa-arvoisuus. Arviointi tapauskohtaista, mikä vaikeuttaa arviointistandardien luomista. Standardien puutteesta johtuva sovellusten toiminnan varmentamattomuus voi estää niiden käytön turvallisuuskriittisissä käyttökohteissa. Johtopäätöksinä työ toteaa kielimallien ja niitä hyödyntävien sovellusten arvioinnin vaativan kehittämistä ja standardointia. Lisätutkimusta tulisi lisätä siitä, miten ihmisen ja kielimallin roolit jakautuvat arvioinnissa, ja miten arviointikriteerit valitaan. Standardoinnin puute vaikuttaa erityisesti LLM-sovelluksien kehitykseen ja niiden käytön mahdollisuuksiin. Tulevaisuudessa toimialakohtaiset arviointikehikot voivat toimia ohjenuorina sovellusten arvioinnin kriteerien ja menetelmien valinnalle eri käyttötapauksissa.

Description

Supervisor

Fagerholm, Fabian

Thesis advisor

Pykälä, Lauri

Keywords

laaja kielimalli, LLM-sovellus, arviointi, tekoäly, kielimalli, generatiivinen tekoäly

Other note

Citation