Fine-tuning transformer-based models to extract transactions from bank statements

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis

Department

Major/Subject

Mcode

Language

en

Pages

65

Series

Abstract

Recent advances in large language models have proven their usefulness in document processing, especially in structured data extraction. However, the increasing volume of financial data, often held in different formats, presents a challenge for automated information extraction. This Thesis investigates the possibility of fine-tuning transformer-based models for automated parsing of bank statements, specifically addressing the challenge of generalizing across diverse document layouts and limited annotated data. The research compares and evaluates the efficacy of two approaches: text-based large language models and an image-based multimodal model. The models were fine-tuned to generate transaction records from OCR-derived text and raw document images. The study utilized a dataset of 1759 bank statements from six different banks: four for training and two for out-of-distribution testing. Model outputs were compared to reference data using exact match, precision, recall, and F1 score, supported by qualitative error analysis. Results indicated significant limitations in generalization capability. Even on in-distribution layouts, the text-based models achieved exact match scores below 0.3, dropping to zero on unseen layouts. While in-distribution F1 scores exceeded 0.7, they fell below 0.3 on out-of-distribution layouts. The multimodal model performed consistently worse, achieving an in-distribution exact match score of 0.05 and an F1 score of 0.48, both declining to near zero out-of-distribution. Common errors included incorrect amount extraction, overgeneration of transactions, and hallucination of entities, highlighting areas for targeted improvement. These findings offer valuable insights into the challenges and opportunities associated with bank statement parsing. Future research should focus on controlling overgeneration and the impact of combining the two modalities. Enhancing the layout diversity in training data, along with exploring advanced generalization techniques such as meta-learning, may help improve generalization.

Suurten kielimallien viimeaikaiset edistysaskeleet ovat osoittaneet niiden hyödyllisyyden dokumenttien automaattisessa käsittelyssä, erityisesti rakenteellisen tiedon poiminnassa. Kuitenkin yhä kasvava ja erilaisissa formaateissa säilytettävä taloudellisten dokumenttien määrä asettaa haasteita automaattiselle tiedonlouhinnalle. Tässä diplomityössä tutkitaan transformer-pohjaisten mallien hienosäätöä tiliotteiden automaattiseen parsimiseen, kun käytössä on vain rajallinen määrä annotoitua dataa. Työssä arvioitiin kahta eri lähestymistapaa: tekstipohjaista kielimallia, sekä kielimallia joka hyödyntää kuvamuotoista syötettä. Mallit hienosäädettiin tuottamaan transaktiotietoja joko OCR-prosessoidusta tekstidatasta tai dokumentin sivuista koostetusta kuvasta. Aineisto koostui yhteensä 1759 tiliotteesta kuudesta eri pankista, joista neljän pankin tiliotteita käytimme mallien hienosäätöön ja kahden pankin tiliotteita ulkopuolisena testiaineistona. Mallien tuottamia transaktiotietoja verrattiin oikeisiin transaktiotietoihin ja tuloksia arvioitiin tarkan osuman, tarkkuuden, palautuksen ja F1 mittarin avulla sekä virhetyyppien laadullisella analyysillä. Tulokset osoittivat merkittäviä rajoitteita mallien yleistymiskyvyssä. Tekstipohjaiset mallit suoriutuivat parhaiten tutuissa rakenteissa, mutta tarkka osuma oli silti suhteellisen matala, 0.3, ja laski nollaan uusissa (out-of-distribution) tiliotteissa. F1 pisteet ylittivät 0.7 tutuissa rakenteissa, mutta laskivat alle 0.3 tuntemattomissa. kauttaaltaan heikommin: sen tarkka osuma oli 0.05 ja F1-piste 0.48, ja molemmat putosivat lähes nollaan uusissa tiliotteissa. Eri kenttien laadullinen tarkastelu paljasti haasteita määrien poimimisessa, transaktioiden liiallisessa generoinnissa, sekä olemattomien entiteettien hallusinoinnissa. Nämä löydökset korostavat tiliotteiden parsimisen haasteita ja mahdollisuuksia. Tulevan tutkimuksen tulisi keskittyä menetelmiin, jolla voitaisiin kontrolloida liiallista generointia ja tutkia tapoja yhdistää kuva- ja tekstisyötteet. Dokumenttien asettelun monipuolisuuden lisääminen harjoitusaineistossa, sekä edistyneiden yleistämismenetelmien hyödyntäminen voisi myös parantaa mallien yleistymiskykyä.

Description

Supervisor

Saramäki, Jari

Thesis advisor

Ikkala, Aleksi

Other note

Citation