Object detection in engineering diagrams with scarce training data
Loading...
URL
Journal Title
Journal ISSN
Volume Title
School of Electrical Engineering |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2024-09-27
Department
Major/Subject
Communications Engineering
Mcode
Degree programme
Master's Programme in Computer, Communication and Information Sciences
Language
en
Pages
62
Series
Abstract
Engineering diagrams, such as piping and instrumentation diagrams (P&ID), are these days intended to be maintained as intelligent diagrams and linked to applications such as operation and maintenance systems, as well as computer-aided engineering (CAE) systems. However, a significant portion of existing diagrams are still in the form of raster images. Converting raster images to more easily processed and modified vector graphics can be performed utilizing neural networks as the diagrams largely consist of repeating symbols. The drawbacks of machine learning methods include erroneous detection and large time investment of both the training data composing and the training itself. Furthermore, disparate diagram sets apply slightly different symbols even if the general form of a symbol is universal. Symbol classes also differ. As a result, current solutions are limited to individual diagram sets, requiring a significant portion of the material to be applied to training the detection model. This is time consuming and isn’t viable for small diagram sets. This thesis aims to explore solutions to improve the performance of machine learning based object detection in engineering diagrams. Advanced machine learning techniques such as few-shot learning could minimize the time investment and the required training data size in individual cases. Additionally, generating synthetic training data by augmenting existing diagrams can aid with the lack of material. Few-shot algorithms that include a base training and a fine-tuning stage are tested. The results from those are compared to a YOLO-based approach that only consists of base training without data from the target diagram set. The datasets applied to base training and few-shot fine-tuning are constructed from available P&ID engineering diagrams, and the base training dataset is augmented via scaling to increase symbol variety and volume.Teknisiä kaavioita, kuten putkisto- ja instrumentointikaavioita halutaan nykyisin ylläpitää älykkäinä kaavioina, ja linkittää sovelluksiin, kuten käynnissäpidon ja kunnossapidon järjestelmiin sekä älykkäisiin CAE-järjestelmiin. Suuri osa olemassa olevista kaavioista on kuitenkin vielä rasterikuvina. Rasterikuvien muun-tamisessa helpommin käsiteltäväksi ja muokattavaksi vektorigrafiikaksi voidaan hyödyntää neuroverkkoja, sillä kaaviot koostuvat pääasiassa toistuvista symboleista. Koneoppimismenetelmien haittoja ovat virheellinen tunnistus ja suuri ajallinen panostus sekä opetusdatan kokoamiseen, että itse koulutukseen. Lisäksi eri kaaviosarjat käyttävät hieman erilaisia symboleita, vaikka symbolin yleinen muoto olisikin universaali. Myös käytetyt symboliluokat vaihtelevat. Tämän seurauksena nykyiset ratkaisut rajoittuvat yksittäisiin kaaviosarjoihin, jolloin merkittävä osa aineistosta on käytettävä tunnistusmallin koulutukseen. Tämä vie huomattavasti aikaa ja on kannattamatonta tai jopa mahdotonta pienille kaaviosarjoille. Tämä opinnäytetyö kartoittaa ratkaisuja koneoppimiseen perustuvan objektintunnistuksen suorituskyvyn parantamiseksi insinöörikaavioissa. Kehittyneet koneoppimistekniikat, kuten few-shot-oppiminen, voisivat vähentää ajallista panostusta ja tarvittavan opetusaineiston määrää yksittäisissä tapauksissa. Lisäksi synteettisen opetusdatan luominen muokkaamalla olemassa olevia kaavioita voi auttaa aineiston puutteessa. Työssä testataan few-shot-algoritmeja, jotka sisältävät pohjakoulutus- ja hienosäätövaiheen. Näiden tuloksia verrataan YOLO-pohjaiseen lähestymistapaan, joka koostuu vain pohjakoulutuksesta ilman dataa kohdekaaviosarjasta. Pohjakoulutuksessa ja few-shot-hienosäädössä käytetyt aineistot kootaan saatavilla olevista P&ID-insinöörikaavioista, ja pohjakoulutusaineistoa laajennetaan skaalaamalla symbolien moninaisuuden ja määrän lisäämiseksi.Description
Supervisor
Östergård, PatricThesis advisor
Karhela, TommiKeywords
convolutional neural network, data augmentation, engineering diagram, few-shot learning, image detection, machine learning, symbol detection, transfer learning