Laajojen kielimallien ja LLM-sovellusten arviointi
No Thumbnail Available
Files
Poutiainen_Tino_2024.pdf (1.06 MB) (opens in new window)
Aalto login required (access for Aalto Staff only).
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2024-09-18
Department
Major/Subject
Informaatioverkostot
Mcode
SCI3026
Degree programme
Teknistieteellinen kandidaattiohjelma
Language
fi
Pages
46
Series
Abstract
Laajojen kielimallien kehittyneet kyvyt asettavat haasteita niiden toiminnan arvioimiselle. LLM-mallien suorituskyky luonnollisen kielen tehtävissä edellyttää, että arviointimenetelmät kykenevät mittaamaan tulosteiden semanttisia ominaisuuksia. Käytössä on monia arviointimenetelmiä, joiden valinnalla on merkittävä vaikutus arvioinnin luotettavuuteen. LLM-mallien hyödyntäminen käytännön sovelluksissa, kuten hakukoneissa ja virtuaaliassistenteissa, vaatii LLM-sovellusten arviointia niiden luotettavan toiminnan varmistamiseksi. Tämä kirjallisuuskatsauksena toteutettu kandidaatintyö luo lukijalle kattavan kuvan LLM-mallien arvioinnin nykytilasta, haasteista ja tulevaisuudesta. Lisäksi työ esittelee LLM-sovellusten arvioinnin haasteita ja kehitystä. Työ esittää tulosten perusteella pohdintoja mahdollisista tulevaisuuden kehityskuluista LLM-mallien ja niitä hyödyntävien sovellusten arvioinnin saralla. LLM-mallien arvioinnissa keskitytään mittaamaan mallien suorituskykyä ja niiden tulosteiden oikeellisuutta. Keinoina ovat erityisesti käsin tehtävä arviointi ja automaattiset arviointimenetelmät, kuten arvioinnin suorittaminen kielimallilla. Ihmisen tekemä arviointi on laadukasta mutta tehotonta, kun taas automaattiset menetelmät ovat tehokkaita mutta tulosten varmentaminen on haasteellista. Menetelmien hyödyt yhdistyvät kielimalliavusteisessa arvioinnissa, jossa ihminen ja kielimalli suorittavat eri osia arvioinnista. Haasteina arvioinnissa on kriteerien ja menetelmien valinnan alttius virheille ja prosessin standardoimattomuus LLM-sovellusten arvioinnissa on oleellista huomioida sovellusten käyttökonteksti sekä eettiset näkökulmat, kuten käytettävyys ja tasa-arvoisuus. Arviointi tapauskohtaista, mikä vaikeuttaa arviointistandardien luomista. Standardien puutteesta johtuva sovellusten toiminnan varmentamattomuus voi estää niiden käytön turvallisuuskriittisissä käyttökohteissa. Johtopäätöksinä työ toteaa kielimallien ja niitä hyödyntävien sovellusten arvioinnin vaativan kehittämistä ja standardointia. Lisätutkimusta tulisi lisätä siitä, miten ihmisen ja kielimallin roolit jakautuvat arvioinnissa, ja miten arviointikriteerit valitaan. Standardoinnin puute vaikuttaa erityisesti LLM-sovelluksien kehitykseen ja niiden käytön mahdollisuuksiin. Tulevaisuudessa toimialakohtaiset arviointikehikot voivat toimia ohjenuorina sovellusten arvioinnin kriteerien ja menetelmien valinnalle eri käyttötapauksissa.Description
Supervisor
Fagerholm, FabianThesis advisor
Pykälä, LauriKeywords
laaja kielimalli, LLM-sovellus, arviointi, tekoäly, kielimalli, generatiivinen tekoäly