aalto1 untyped-item.component.html
Large language models in event forecasting
Loading...
Files
Aalto login required (access for Aalto Staff only).
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
Department
Major/Subject
Mcode
SCI3027
Degree programme
Language
en
Pages
25
Series
Abstract
Event forecasting is the basis for preparing for the future. By successfully anticipating events, preparations can be made to mitigate negative events, unnecessary preparations can be avoided, and some negative events can be completely prevented if their causes are acted early on. This thesis investigates using large language models in event forecasting. The events discussed in this thesis are presented either with a strict structure or as yes/no questions about future. The strict structure is the temporal knowledge graph, which was utilized in most of the works discovered. When forecasting events with temporal knowledge graphs, usually the predicted feature is either an entity participating in the event, or a description of the event.
The source material for this literature review was peer reviewed articles, conference articles, and pre-print articles. The use of pre-print articles was necessary because the field is so new, with the powerful large language models being developed in late 2010's. Most of the research papers on forecasting models were written in the last few years, and most of them have not yet been through traditional peer review. This was taken into account by being especially strict when assessing such papers.
Large language models were found to be utilized in multiple ways. Some works used the language model to make the prediction itself, while other used them to search for relevant information or transform free form text into usable form for another predictor. Most of the works discovered resulted only in incremental improvements compared to earlier methods. However, in some settings, such as when forecasting novel events, the improvements were more significant. In the few cases where accuracy was compared to human forecasters, the models performed poorly, with the exception of one model which had much more restricted setting in the healthcare field. In addition, many of the papers had some issues with statistics and datasets, which should be solved before the results can be trusted with high confidence.
As result of this literature review, it seems that large language models have potential to improve prediction accuracy in the event forecasting task, at least in some settings. While many of the papers had some issues, the most serious ones could be easily be alleviated by re-evaluating the models with a more recent dataset and including statistics of the results in the papers.
Tulevaisuuteen varautumisen pohjana toimii tulevaisuuden tapahtumien ennustaminen. Onnistuneella ennustamisella voidaan varautua negatiivisin tapahtumiin ja pienentää niistä aiheutuvia haittoja, sekä olla varautumatta turhaan asioihin jotka eivät vaikuta todennäköisiltä. Tämä kandidaattityö tutkii suurten kielimallien hyödyntämistä tapahtumien ennustamisessa. Työssä käsiteltävät tapahtumat on määritetty täsmällisellä rakenteella. Suurimmassa osassa julkaisuja käytetyn ajallisen tietoverkkorakenteen avulla ennustetaan mitä tapahtuu ja kenelle. Muut julkaisut käsittelevät tapahtumia kyllä/ei -kysymyksenä tapahtuuko kysytty asia haluttuun aikaan mennessä.
Työn aineistona on vertaisarvioidut artikkelit, konferenssijulkaisut, sekä alan uutuudesta johtuen myös vertaisarvioimattomia julkaisuja. Työn kannalta olennaisin aineisto on julkaistu viimeisten vuosien aikana. Julkaisuista tutkitaan eri tapoja joilla suuria kielimalleja on hyödynnetty, sekä tarkastellaan saavutettuja hyötyjä. Alan uutuuden ja vertaisarvioimattomien julkaisujen hyödyntämisen vuoksi arvioidaan myös tutkimusten tulosten luotettavuutta.
Suuria kielimalleja huomattiin käytettävän tapahtumia ennustettaessa monella eri tavalla. Kielimalleja käytettiin muun muassa ennustamistehtävän kannalta olennaisen tiedon etsimiseen aineistosta, samankaltaisten tapahtumien tunnistamiseen, sekä itse ennustusten tekemiseen annetun aineiston pohjalta. Tarkastelluissa tutkimuksissa havaittiin yleensä pienehköjä, mutta kuitenkin tilastollisesti merkittäviä parannuksia verrattuna aiempiin ennustustapoihin. Tulosten arviointia ja vertailua kuitenkin haittasi osassa artikkeleita puuttuvat virhemarginaalit sekä tulosten vertaaminen hieman eri tavoin koulutettuihin ja arvioituihin ennustustapoihin. Osassa julkaisuista havaittiin myös ennustettavan tapahtumia jotka ajallisesti kuuluvat mahdollisesti suuren kielimallin koulutusmateriaaliin, eli kielimalli saattoi tietää oikeat vastaukset ennustuksiin.
Tuloksista voi päätellä, että suurista kielimalleista voi olla hyötyä tapahtumien ennustamisessa. Ala kuitenkin tarvitsee lisää vertausarvioitua julkaisuja, jotta tuloksia voi pitää varmempina. Tuloksissa tulisi kiinnittää lisää huomiota niiden vertailtavuuteen sekä virherajoihin, varsinkin kun tulosparannukset eivät ole yleensä suuria. Huomiota herätti myös se, että suuren kielimallin syötteen valikoitumista käsiteltiin erittäin harvoin, vaikka sillä on merkittävä vaikutus kielimallin tuotosten laatuun.