aalto1 untyped-item.component.html

Large language models in event forecasting

Loading...
Thumbnail Image

Files

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.

Department

Major/Subject

Mcode

SCI3027

Language

en

Pages

25

Series

Abstract

Event forecasting is the basis for preparing for the future. By successfully anticipating events, preparations can be made to mitigate negative events, unnecessary preparations can be avoided, and some negative events can be completely prevented if their causes are acted early on. This thesis investigates using large language models in event forecasting. The events discussed in this thesis are presented either with a strict structure or as yes/no questions about future. The strict structure is the temporal knowledge graph, which was utilized in most of the works discovered. When forecasting events with temporal knowledge graphs, usually the predicted feature is either an entity participating in the event, or a description of the event. The source material for this literature review was peer reviewed articles, conference articles, and pre-print articles. The use of pre-print articles was necessary because the field is so new, with the powerful large language models being developed in late 2010's. Most of the research papers on forecasting models were written in the last few years, and most of them have not yet been through traditional peer review. This was taken into account by being especially strict when assessing such papers. Large language models were found to be utilized in multiple ways. Some works used the language model to make the prediction itself, while other used them to search for relevant information or transform free form text into usable form for another predictor. Most of the works discovered resulted only in incremental improvements compared to earlier methods. However, in some settings, such as when forecasting novel events, the improvements were more significant. In the few cases where accuracy was compared to human forecasters, the models performed poorly, with the exception of one model which had much more restricted setting in the healthcare field. In addition, many of the papers had some issues with statistics and datasets, which should be solved before the results can be trusted with high confidence. As result of this literature review, it seems that large language models have potential to improve prediction accuracy in the event forecasting task, at least in some settings. While many of the papers had some issues, the most serious ones could be easily be alleviated by re-evaluating the models with a more recent dataset and including statistics of the results in the papers.

Tulevaisuuteen varautumisen pohjana toimii tulevaisuuden tapahtumien ennustaminen. Onnistuneella ennustamisella voidaan varautua negatiivisin tapahtumiin ja pienentää niistä aiheutuvia haittoja, sekä olla varautumatta turhaan asioihin jotka eivät vaikuta todennäköisiltä. Tämä kandidaattityö tutkii suurten kielimallien hyödyntämistä tapahtumien ennustamisessa. Työssä käsiteltävät tapahtumat on määritetty täsmällisellä rakenteella. Suurimmassa osassa julkaisuja käytetyn ajallisen tietoverkkorakenteen avulla ennustetaan mitä tapahtuu ja kenelle. Muut julkaisut käsittelevät tapahtumia kyllä/ei -kysymyksenä tapahtuuko kysytty asia haluttuun aikaan mennessä. Työn aineistona on vertaisarvioidut artikkelit, konferenssijulkaisut, sekä alan uutuudesta johtuen myös vertaisarvioimattomia julkaisuja. Työn kannalta olennaisin aineisto on julkaistu viimeisten vuosien aikana. Julkaisuista tutkitaan eri tapoja joilla suuria kielimalleja on hyödynnetty, sekä tarkastellaan saavutettuja hyötyjä. Alan uutuuden ja vertaisarvioimattomien julkaisujen hyödyntämisen vuoksi arvioidaan myös tutkimusten tulosten luotettavuutta. Suuria kielimalleja huomattiin käytettävän tapahtumia ennustettaessa monella eri tavalla. Kielimalleja käytettiin muun muassa ennustamistehtävän kannalta olennaisen tiedon etsimiseen aineistosta, samankaltaisten tapahtumien tunnistamiseen, sekä itse ennustusten tekemiseen annetun aineiston pohjalta. Tarkastelluissa tutkimuksissa havaittiin yleensä pienehköjä, mutta kuitenkin tilastollisesti merkittäviä parannuksia verrattuna aiempiin ennustustapoihin. Tulosten arviointia ja vertailua kuitenkin haittasi osassa artikkeleita puuttuvat virhemarginaalit sekä tulosten vertaaminen hieman eri tavoin koulutettuihin ja arvioituihin ennustustapoihin. Osassa julkaisuista havaittiin myös ennustettavan tapahtumia jotka ajallisesti kuuluvat mahdollisesti suuren kielimallin koulutusmateriaaliin, eli kielimalli saattoi tietää oikeat vastaukset ennustuksiin. Tuloksista voi päätellä, että suurista kielimalleista voi olla hyötyä tapahtumien ennustamisessa. Ala kuitenkin tarvitsee lisää vertausarvioitua julkaisuja, jotta tuloksia voi pitää varmempina. Tuloksissa tulisi kiinnittää lisää huomiota niiden vertailtavuuteen sekä virherajoihin, varsinkin kun tulosparannukset eivät ole yleensä suuria. Huomiota herätti myös se, että suuren kielimallin syötteen valikoitumista käsiteltiin erittäin harvoin, vaikka sillä on merkittävä vaikutus kielimallin tuotosten laatuun.

Description

Supervisor

Savioja, Lauri

Thesis advisor

Ciaperoni, Martino

Other note

Citation

Endorsement

Review

Supplemented By

Referenced By