Object detection in engineering diagrams with scarce training data

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Electrical Engineering | Master's thesis

Date

2024-09-27

Department

Major/Subject

Communications Engineering

Mcode

Degree programme

Master's Programme in Computer, Communication and Information Sciences

Language

en

Pages

62

Series

Abstract

Engineering diagrams, such as piping and instrumentation diagrams (P&ID), are these days intended to be maintained as intelligent diagrams and linked to applications such as operation and maintenance systems, as well as computer-aided engineering (CAE) systems. However, a significant portion of existing diagrams are still in the form of raster images. Converting raster images to more easily processed and modified vector graphics can be performed utilizing neural networks as the diagrams largely consist of repeating symbols. The drawbacks of machine learning methods include erroneous detection and large time investment of both the training data composing and the training itself. Furthermore, disparate diagram sets apply slightly different symbols even if the general form of a symbol is universal. Symbol classes also differ. As a result, current solutions are limited to individual diagram sets, requiring a significant portion of the material to be applied to training the detection model. This is time consuming and isn’t viable for small diagram sets. This thesis aims to explore solutions to improve the performance of machine learning based object detection in engineering diagrams. Advanced machine learning techniques such as few-shot learning could minimize the time investment and the required training data size in individual cases. Additionally, generating synthetic training data by augmenting existing diagrams can aid with the lack of material. Few-shot algorithms that include a base training and a fine-tuning stage are tested. The results from those are compared to a YOLO-based approach that only consists of base training without data from the target diagram set. The datasets applied to base training and few-shot fine-tuning are constructed from available P&ID engineering diagrams, and the base training dataset is augmented via scaling to increase symbol variety and volume.

Teknisiä kaavioita, kuten putkisto- ja instrumentointikaavioita halutaan nykyisin ylläpitää älykkäinä kaavioina, ja linkittää sovelluksiin, kuten käynnissäpidon ja kunnossapidon järjestelmiin sekä älykkäisiin CAE-järjestelmiin. Suuri osa olemassa olevista kaavioista on kuitenkin vielä rasterikuvina. Rasterikuvien muun-tamisessa helpommin käsiteltäväksi ja muokattavaksi vektorigrafiikaksi voidaan hyödyntää neuroverkkoja, sillä kaaviot koostuvat pääasiassa toistuvista symboleista. Koneoppimismenetelmien haittoja ovat virheellinen tunnistus ja suuri ajallinen panostus sekä opetusdatan kokoamiseen, että itse koulutukseen. Lisäksi eri kaaviosarjat käyttävät hieman erilaisia symboleita, vaikka symbolin yleinen muoto olisikin universaali. Myös käytetyt symboliluokat vaihtelevat. Tämän seurauksena nykyiset ratkaisut rajoittuvat yksittäisiin kaaviosarjoihin, jolloin merkittävä osa aineistosta on käytettävä tunnistusmallin koulutukseen. Tämä vie huomattavasti aikaa ja on kannattamatonta tai jopa mahdotonta pienille kaaviosarjoille. Tämä opinnäytetyö kartoittaa ratkaisuja koneoppimiseen perustuvan objektintunnistuksen suorituskyvyn parantamiseksi insinöörikaavioissa. Kehittyneet koneoppimistekniikat, kuten few-shot-oppiminen, voisivat vähentää ajallista panostusta ja tarvittavan opetusaineiston määrää yksittäisissä tapauksissa. Lisäksi synteettisen opetusdatan luominen muokkaamalla olemassa olevia kaavioita voi auttaa aineiston puutteessa. Työssä testataan few-shot-algoritmeja, jotka sisältävät pohjakoulutus- ja hienosäätövaiheen. Näiden tuloksia verrataan YOLO-pohjaiseen lähestymistapaan, joka koostuu vain pohjakoulutuksesta ilman dataa kohdekaaviosarjasta. Pohjakoulutuksessa ja few-shot-hienosäädössä käytetyt aineistot kootaan saatavilla olevista P&ID-insinöörikaavioista, ja pohjakoulutusaineistoa laajennetaan skaalaamalla symbolien moninaisuuden ja määrän lisäämiseksi.

Description

Supervisor

Östergård, Patric

Thesis advisor

Karhela, Tommi

Keywords

convolutional neural network, data augmentation, engineering diagram, few-shot learning, image detection, machine learning, symbol detection, transfer learning

Other note

Citation