Deep Learning Object Detection Models in Robotic Process Automation

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Business | Master's thesis

Date

2020

Major/Subject

Mcode

Degree programme

Information and Service Management (ISM)

Language

en

Pages

82

Series

Abstract

In recent years, businesses have become increasingly aware of their need to automate previously manual business processes. Adoption rates of robotic process automation (RPA) tools have increased a lot, and this has generated a great deal of value for companies. But, alas, especially some older legacy applications are still extremely problematic from the point of view of RPA platforms, and they cannot often be interfaced in a same fashion as some more modern applications. This is especially lamentable, as it is often the older applications, which tend to be used in the more manual business processes. This thesis aims to build a foundation for building and evaluating commercializable computer vision (CV) object detection models, that resolve the issues faced by RPA applications that arise from the lack of operating system (OS) level user interface (UI) visual element data. This kind of models could be used as a basis for building completely new RPA tools, or for augmenting existing solutions. The research questions discussed by this study are as follows: 1. Is using machine learning models for the detection of user interface elements viable? 2. What are the implications to existing RPA applications? 3. Can we build a model that is able to generalize from data from another domain? This thesis discusses the theoretical background of object detection and machine learning, and presents three potential families of machine learning model architectures that could be used for the aforementioned tasks. These models were then trained and compared to the CV capabilities of a commercial RPA platform, UiPath. The results show that the most simple object detection models cannot compete with the current commercial offering. There is, however, a clear path to further research, and it is clear that building a object detection system for UI elements is viable. In addition, this thesis presents the first publicly available dataset of (manually) annotated desktop UI screenshot images, and a tool for generating artificial user interface data.

Yritykset ovat tulleet viime vuosina aiempaa tietoisemmiksi tarpeestaan automatisoida liiketoimintaprosesseja, jotka ovat aiemmin olleet manuaalisia. Ohjelmistorobotiikkatyökalujen hyödyntämisaste on kasvanut yrityksissä paljon, ja tämä on tuottanut paljon lisäarvoa yrityksille. Ohjelmistorobotiikka-alustojen hyödyntäminen ei ole yksiselitteistä sellaisten vanhojen liiketoimintasovellusten kohdalla, joita ei enää jatkokehitetä. Usein niitä ei voida käyttää samalla tavalla kuin modernimpia sovelluksia. Tämä on erityisen valitettavaa, koska useissa verrokkejaan manuaalisemmissa prosesseissa hyödynnetään tällaisia vanhempia sovelluksia. Tämä tutkielma pyrkii rakentamaan pohjan sellaisten kohteentunnistukseen käytettävien konenäkömallien rakentamiseen ja arviointiin, jotka ratkaisevat käyttöjärjestelmältä saatavasta puutteellisesta tiedosta käyttöliittymän visuaalisten elementtien ominaisuuksista nousevia ohjelmistorobotiikkasovellusten kohtaamia ongelmia. Tämänkaltaiset mallit voisivat olla pohjana täysin uusille ohjelmistorobotiikkatyökaluille, tai niitä voitaisiin käyttää olemassa olevien ratkaisujen täydentämiseen. Tämä tutkimus pohtii seuraavia tutkimuskysymyksiä: 1. Onko konenäkömalleja mahdollista käyttää käyttöliittymäelementtien tunnistamiseen? 2. Mitä vaikutuksia näillä on olemassa oleville ohjelmistorobotiikkasovelluksille? 3. Pystymmekö rakentamaan mallin, joka pystyy tekemään yleistyksiä toiseen käyttökohteeseen tarkoitetun datan perusteella? Tämä pro gradu -tutkielma kertaa kohteentunnistuksen ja koneoppimisen teoreettista taustaa ja esittelee kolme erilaista koneoppimisarkkitehtuuriryhmää, joita pystyttäisiin käyttämään edellä mainittuihin tehtäviin. Nämä mallit kehitettiin, ja niitä vertaillaan kaupallisen ohjelmistorobotiikka-alustan, UiPathin, konenäkötoiminnallisuuksiin. Tulokset osoittavat, että kaikkein yksinkertaisimmat kohteentunnistusmallit eivät pysty kilpailemaan nykyisten kaupallisten tarjoomien kanssa. On kuitenkin havaittavissa selkeä polku jatkotutkimukselle, ja on selvää, että kohteentunnistusjärjestelmän rakentaminen käyttöliittymäelementtien tunnistamiseen on mahdollista. Lisäksi, osana tätä pro gradu -tutkielmaa julkistetaan ensimmäinen julkisesti saatavilla oleva selityksin varustettu tietoaineisto työpöytäkäyttöliittymien kuvakaappauksista, sekä työkalu keinotekoisten käyttöliittymädatan generointiin.

Description

Thesis advisor

Malo, Pekka
Viitasaari, Lauri

Keywords

Syväoppiminen, hahmontunnistus, ohjelmistorobotiikka, koneoppiminen

Other note

Citation