Extracting Semi-Structured Information from Receipts
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2022-05-16
Department
Major/Subject
Machine Learning, Data Science and Artificial Intelligence
Mcode
SCI3044
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
68
Series
Abstract
This thesis looks into the state-of-the-art (SOTA) methods for document information extraction and experiments on a multi-lingual receipt dataset. First, the task of document information extraction is split into manageable subtasks on which recent research exists. Each subtask is discussed in more detail, and recent advancements are presented. The key information extraction (KIE) task is the primary focus for most of the thesis and, therefore, is discussed more extensively. Three separate models attempting to tackle KIE with different methods and architectures are presented in detail. The most influential aspects of exploring the models are their ability to handle multi-lingual data and incorporate task-specific multi-modal information into the training process. Two out of three models perform comparably to the current SOTA models, namely LayoutLMv2 and PICK. While LayoutLMv2 uses a Transformer-based model, PICK uses a graph convolutional network as its backbone. Both of these turn out to be effective ways of learning document structures. Finally, experiments are done on a collective dataset consisting of the publicly available SROIE dataset and manually collected Finnish receipts. A pre-trained LayoutXLM, a multi-lingual variation of LayoutLMv2, is used to evaluate its performance on multi-lingual data. The results are mostly comparable to what the authors of the most notable papers have got, but the most severe limiting factor is the lack of data. The performance varies considerably based on which set of labels is used. Nevertheless, it is concluded that, given enough data, the models can perform well even on multi-lingual complex data, as was demonstrated by the authors of the original paper by evaluating them on more complex document types.Tämän diplomityön päällimmäisenä tavoitteena on tutustua tällä hetkellä parhaiten suoriutuviin syväoppimista käyttäviin neuroverkkomalleihin, jotka on koulutettu löytämään keskeiset tiedot erilaisista dokumenteista kuten kuiteista. Tämän lisäksi työn lopussa tutkitaan erään mallin toimivuutta monikielisten dokumenttien kanssa. Aluksi keskeisen tiedon löytäminen dokumenteista jaetaan osaongelmiin, joista jokainen käsitellään erikseen. Osaongelmien kuvaamisen lisäksi käsitellään kirjallisuuden pohjalta viimeaikaisia edistysaskelia. Työn päätavoite on kuitenkin tutkia erilaisia lähestymistapoja keskeisen tiedon löytämiseen dokumenteista, ja tätä käsitellään perusteellisemmin. Kolme erilaista neuroverkkomallia esitellään kirjallisuuden pohjalta ja jokaisen yksityiskohdat käydään tarkemmin läpi. Kaikkein tärkeimmät näkökulmat mallien tarkasteluun ovat niiden tehokkuus monikielisillä dokumenteilla ja miten kyseiset mallit ottavat huomioon dokumenttien erityispiirteet, kuten tekstin sijainnin ja tyylin, koulutusvaiheessa. Kaksi kolmesta esitetystä mallista suoriutuu hyvin tämän hetken parhaiten suoriutuviin malleihin verrattuina. LayoutLMv2 käyttää Transformer-arkkitehtuuria, kun taas PICK käyttää graafipohjaista arkkitehtuuria. Molemmat arkkitehtuurit suoriutuvat hyvin, sillä molempien vahvuuksina on mahdollisuus löytää yhteyksiä dokumenteissa esiintyvien tekstikappaleiden välillä. Lopuksi esikoulutettu LayoutXLM, joka on LayoutLMv2:n monikielinen versio, koulutetaan käyttämällä kollektiivista SROIE-tietokannan ja itse kerätyn suomalaisia kuitteja sisältävän tietojoukon yhdistelmää. Saadut tulokset ovat suurelta osin verrattavissa alkuperäisen tutkimuksen tuloksiin, mutta joiltain osin jäävät kuitenkin merkittävästi huonommiksi. Pääsyy tähän luultavasti on datan puute, sillä tulokset vaihtelevat merkittävästi riippuen siitä, mitä alijoukkoa dokumenteista etsityistä tiedoista tarkastellaan. Suurin ero on arvonlisäveroihin liittyvät luokat, joita esiintyy tietojoukossa merkittävästi vähiten. Riippumatta tästä, voidaan kuitenkin todeta, että kyseiset mallit ovat tehokkaita ja tulisivat suoriutumaan hyvin myös kyseisen alijoukon luokissa. Alkuperäisissä julkaisuissa malleja on tutkittu monenlaisilla tietojoukoilla, joiden pohjalta voidaan todeta, että mallit ovat varsin kyvykkäitä toimimaan myös erittäin kompleksisen datan kanssa, mikäli tarpeeksi koulutusdataa on tarjolla.Description
Supervisor
Laaksonen, JormaThesis advisor
Laaksonen, JormaKeywords
information extraction, deep learning, sroie, receipt