Rule-based field extraction for product manufacturing documents
No Thumbnail Available
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Authors
Date
2023-01-23
Department
Major/Subject
Computer Science
Mcode
SCI3042
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
41 + 1
Series
Abstract
Product drawings are often used in manufacturing operations to provide instructions for the product assembly and details about the product and its parts. An efficient manufacturing process requires such documents to be readily available for product assembly. Especially for a large volume of documents, this calls for an adequate indexing and retrieval system to eliminate manual work of document management. This thesis focuses on the design and implementation of a field extraction solution to automate document management by extracting and semantically labeling text in document images. The background research of this thesis is concerned with information extraction and document image analysis. Documents are modeled based on the dynamic and static elements identified in document image analysis. Field extraction methods rely use the document models to detect fields to extract. There are both learning-based and rule-based approaches to field extraction. A simple field extraction method relying on the physical structure of the document is implemented. The solution is integrated as an extension to Odoo document management module with appropriate interfaces designed to support the background operations. Classifying documents is achieved by Agglomerative Clustering based on text terms. Modeling is accomplished by randomly selecting a single example document to annotate for each class. The implementation is evaluated based on qualitative analysis of extraction results along with customer feedback. The results highlight the complexity of designing a full scale information extraction implementation. Various processes in the pipeline of annotating, modeling, and extraction depend greatly on the output from the previous processor. Each part of the system in itself is a major component where fine tuning is often necessary. From a practical standpoint the Optical Character Recognition produces the largest value gap. A simple rule-based implementation can be feasible for a product drawings. However, more work is needed to improve loss of value in the processing pipeline.Tuotepiirustuksia käytetään valmistusteollisuudessa tuotteen valmistuksen ohjeina. Tuotannon ensimmäinen työvaihe on ohjeen noutaminen, minkä takia tuotepiirustusten on oltava helposti saatavilla. Piirustusten indeksointi ja haku käsin on työlästä erityisesti tuotteiden määrän ja tuotannon volyymin ollessa suuri. Tämä työ selvittää menetelmiä, joilla tuotepiirustusten indeksointi voidaan toteuttaa irrottamalla tekstitietoja piirustuksista koneellisesti. Työssä tarkastellaan informaation haun ja irrotuksen menetelmiä erityisesti dokumenttikuvissa olevaan tekstidataan liittyen. Tuotepiirustuksia käsitellään lähtökohtaisesti kuvankäsittelyn ja tekstintunnistuksen menetelmillä, jos sen sisältöä ei voida lukea koneellisesti itse tiedostosta. Taustatutkimuksessa esitellään kuvan rakenteen mallintamiseen liittyviä menetelmiä sekä kenttätietojen irrottamiseen ja semanttisen luokittelun menetelmiä. Menetelmät perustuvat kuvan rakenteen ja tekstikenttien sijainnin ja semantiikan mallintamiseen sääntöpohjaisilla tai koneoppimiseen pohjautuvilla tekniikoilla. Työssä esitellään sääntöpohjainen toteutus kenttätietojen irrotukseen ja semanttiseen luokitteluun. Toteutus koostuu dokumenttien luokittelusta, tekstintunnistuksesta, ja mallinnuksesta. Mallinnus toteutetaan valitsemalla satunnaisesti yksi annotoitava esimerkki jokaisesta dokumenttiluokasta ja annotoimalla kohdetiedot. Kenttätietojen irrotus toteutetaan käyttämällä luokan sisäisiä staattisia kenttiä referenssipisteinä, joiden avulla malli sovitetaan syötteenä tulevaan dokumenttiin. Kenttätietojen irrotus integroidaan osaksi Odoo-järjestelmän dokumentinhallintaa. Tulokset korostavat kenttätietojen irroittamiseen perustuvan järjestelmän monimutkaisuutta. Jokainen kenttätietojen irroituksen vaihe on riippuvainen edellisen vaiheen laadusta. Toteutettua menetelmää arvioidaan tekstiosien irroituksen laadun tarkastelun sekä asiakaspalautteen perusteella. Tulokset osoittavat sääntöpohjaisen tekniikan soveltuvan hyvin käytetyn esimerkkimateriaalin tapauksessa. Menetelmä on kevyt, helposti muokattava, ja pohjautuu täysin avoimen lähdekoodin sovelluksiin.Description
Supervisor
Vuorimaa, PetriThesis advisor
Happonen, MarkoKeywords
document image, field extraction, optical character recognition, product drawing