Machine Learning and Distributed Computing Techniques for Process Mining

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Science | Doctoral thesis (article-based) | Defence date: 2020-11-27
Date
2020
Major/Subject
Mcode
Degree programme
Language
en
Pages
94 + app. 134
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 144/2020
Abstract
Process mining aims at supporting the understanding of business processes. To this end, information is extracted from event logs in an automated fashion using machine learning methods. Large-scale machine learning methods allow handling massive volumes of event log data without the need for costly human (expert) labor. This dissertation studies efficient methods for large scale machine learning problems arising within process mining and predictive process analytics. Machine learning is a research area examining techniques for allowing a computer to learn from past data and create a mathematical model based on it. A common application of machine learning in process mining is the continuous forecasting of events within long-term business processes. This dissertation presents a method for performing structural feature selection from process instances. The performances of different feature selection techniques are compared using a gradient boosting machine (GBM) as a benchmark classification method for binary classification tasks. The best results were achieved by k-means clustering-based feature selection algorithm developed in the dissertation. An alternative to combining explicit feature selection with standard classification methods (such as GBM) is to feed raw data into a deep neural network. Deep neural networks perform the feature selection implicitly during the training process. Since event logs have an intrinsic temporal ordering, recurrent neural networks (RNN) are a popular choice for deep learning methods in process mining. It is found out that RNNs using gated recurrent unit (GRU) are favorable compared to long short-term memory (LSTM) network structure for this task. This dissertation also presents a novel method for efficiently encoding event attribute data into input vectors used to train RNN models which provides a user-configurable trade-off between the prediction accuracy and the time needed for model training and prediction. Complementary to the design of efficient machine learning methods, this dissertation also studies computational frameworks for the implementation of process mining methods including a comparison of the suitability of state-of-the-art big data frameworks for process mining tasks. Finally, this dissertation also includes a track of papers related to finding correlations between findings, such as long lead times, in process mining event logs. Several new algorithms are proposed to help to analyze the causes and correlations both when the finding is a categorical or a continuous value. For both cases, methods for providing an additional weight parameter are presented. These weights can be used, e.g., to guide the analysis based on the importance or business value of each process instance.

    Prosessien louhinnan tavoitteena on tukea liiketoimintaprosessien ymmärtämistä. Tätä varten tiedot kerätään tapahtumalokeista automaattisesti koneoppimismenetelmiä hyödyntäen. Koneoppimismenetelmät mahdollistavat suurten tapahtumalokien käsittelemisen automaattisesti ilman asiantuntijan apua. Tämä väitöskirja selvittää tehokkaita koneoppimiseen perustuvia ratkaisuita prosessien louhintaan ja ennustavaan prosessianalytiikkaan liittyviin ongelmiin. Koneoppimisessa tutkitaan tekniikoita, joiden avulla luodaan matemaattinen malli todellisuudesta aiempien tapahtumien perusteella. Yleinen prosessien louhintaan liittyvä koneoppimisen sovellus on tulevien tapahtumien ennustaminen liiketoimintaprosesseissa. Tämä väitöskirja esittelee menetelmiä liiketoimintaprosessien rakenteellisten ominaisuuksien lukumäärän rajoittamiseen matemaattista mallia luotaessa, erilaisia valintatekniikoita käyttäen. Valintatekniikoiden suorituskykyä verrataan toisiinsa gradient boosting machine (GBM) koneoppimistekniikkaa käyttävissä binaariluokittelutehtävissä. Väitöskirjassa esitelty K-means-pohjainen valinta-algoritmi saavutti parhaat tulokset. Tapatumalokin raakadatan syöttämistä syvään neuroverkkoon voidaan pitää vaihtoehtona perinteisille luokittelutekniikoille (kuten GBM). Syvät neuroverkot kykenevät oppimaan liiketoimintaprosessien rakenteellisia riippuvuuksia automaattisesti verkon opetusvaiheessa. Koska prosessien luomat tapahtumalokit ovat luontaisesti ajallisesti järjestyksessä, ovat takaisinkytketyt neuroverkot (RNN) hyvä valinta prosessien louhinnassa syvän oppimisen menetelmille. Syvistä verkkorakenteista erityisen hyvin tähän työhön soveltuu gated recurrent unit (GRU), jotka useimmiten suoriutuvat tehtävästä vähemmillä resursseilla kuin pitkä lyhytkestomuistit (LSTM). Tämä väitöskirja esittelee uuden menetelmän tapahtumiin liitettyjen lisäominaisuustietojen esittämiseksi tehokkaasti RNN-mallien kouluttamiseen tarkoitetuissa syöttövektoreissa, joka tarjoaa käyttäjälle mahdollisuuden kompromissin tekemiseen ennustetarkkuuden ja mallin koulutukseen sekä ennustamiseen tarvittavan ajan välillä. Väitöskirja sisältää myös selvityksen big data-ympäristöjen soveltuvuudesta prosessin louhintaan liittyvien tehtävien suorittamisessa. Selvitys tehdään vertailemalla muutamien suosituimpien tarjolla olevan ohjelmistojen ominaisuuksia. Lopuksi tämä väitöskirja sisältää myös kokoelman julkaisuja, jotka liittyvät tapahtumalokeista tehtyjen havaintojen, kuten pitkien läpimenoaikojen, välisten korrelaatioiden löytämiseen. Useita uusia algoritmeja ehdotetaan helpottamaan syiden ja korrelaatioiden analysointia sekä jatkuvien että kategoristen havaintojen yhteydessä. Lisäksi esitetään menetelmä painokertoimien käyttöön analyysien yhteydessä, joiden avulla voidaan ohjata analyysiä prosessin merkityksen tai liiketoiminnan arvon perusteella.
Description
27.11.2020 10:00 – 14:00 Via remote technology (Zoom: https://aalto.zoom.us/j/62011486869)
Supervising professor
Jung, Alex, Asst. Prof., Aalto University, Department of Computer Science, Finland
Thesis advisor
Heljanko, Keijo, Prof., University of Helsinki, Finland
Keywords
process mining, machine learning, predictive process analytics, prediction, classification, deep learning, recurrent neural networks, distributed computing, prosessien louhinta, koneoppiminen, ennustava prosessianalytiikka, ennustus, luokittelu, syväoppiminen, takaisinkytketyt neuroverkot, hajautettu laskenta
Other note
Parts
  • [Publication 1]: Markku Hinkka, Teemu Lehto, Keijo Heljanko, Alex Jung. Structural Feature Selection for Event Logs. In Business Process Management Work- shops - BPM 2017 International Workshops, Barcelona, Spain, Revised Papers, volume 308 of Lecture Notes in Business Information Processing, pages 20-35, 9 2017.
    DOI: 10.1007/978-3-319-74030-0_2 View at publisher
  • [Publication 2]: Markku Hinkka, Teemu Lehto, Keijo Heljanko, Alex Jung. Classifying Process Instances Using Recurrent Neural Networks. In Business Process Management Workshops - BPM 2018 International Workshops, Sydney, NSW, Australia, September 9-14, 2018, Revised Papers, volume 342 of Lecture Notes in Business Information Processing, pages 313-324, 9 2018.
    DOI: 10.1007/978-3-030-11641-5_25 View at publisher
  • [Publication 3]: Markku Hinkka, Teemu Lehto, Keijo Heljanko. Exploiting Event Log Data-Attributes in RNN Based Prediction. Lecture Notes in Business Information Processing, Volume 379, Data-Driven Process Discovery and Analysis 8th and 9th IFIP WG 2.6 International Symposium, SIMPDA 2018 - 2019, Revised Selected Papers, 2020
  • [Publication 4]: Markku Hinkka, Teemu Lehto, Keijo Heljanko. Assessing Big Data SQL Frameworks for Analyzing Event Logs. In 24th Euromicro International Conference on Parallel, Distributed, and Network-Based Processing. PDP 2016., Heraklion, Crete, Greece, 101-108, 2 2016.
    DOI: 10.1109/PDP.2016.26 View at publisher
  • [Publication 5]: Teemu Lehto, Markku Hinkka, Jaakko Hollmén. Focusing Business Improvements Using Process Mining Based Influence Analysis. In BusinessProcess Management Forum. BPM 2016., Rio de Janeiro, Brazil, pages 177-192, 9 2016
  • [Publication 6]: Teemu Lehto, Markku Hinkka, Jaakko Hollmén. Focusing Business Process Lead Time Improvements Using Influence Analysis. In 7th International Symposium on Data-Driven Process Discovery and Analysis (SIMPDA 2017), Neuchatel, Switzerland, pages 54-67, 12 2017.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201803161739
  • [Publication 7]: Teemu Lehto, Markku Hinkka, Jaakko Hollmén. Analyzing Business Process Changes Using Influence Analysis. In 8th International Symposium on Data-Driven Process Discovery and Analysis (SIMPDA 2018), Seville, Spain, 12 2018
  • [Publication 8]: Teemu Lehto, Markku Hinkka. Discovering Business Area Effects To Process Mining Analysis Using Clustering and Influence Analysis. In 23rd International Conference on Business Information Systems (BIS2020), Colorado Springs, USA, 6 2020.
    DOI: 10.1007/978-3-030-53337-3_18 View at publisher
Citation