Continuous data quality validation in railway operation domain

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2023-10-09
Department
Major/Subject
Computer Science
Mcode
SCI3042
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
60
Series
Abstract
The continuous increase in digitalization can provide many benefits for a variety of organizations but it can also amplify the need for better processes regarding quality control. This has recently been the case for VR, the largest railway operator in Finland, which has, at times, suffered from the effects of bad data quality. During the past few years, VR has started centralizing many internal system integrations by creating a so-called data platform within its IT department. The data platform is responsible for providing data across VR and its infrastructure is completely operated in an Amazon Web Services cloud computing environment. This has enabled the use of many modern technologies for the development of various near-realtime data pipelines and some of these pipelines are implemented with a specific message broker technology, AWS Kinesis. Recently it had been recognized at VR that especially the data pipelines implemented with Kinesis suffer from the lack of data quality validation and improved quality control procedures are required. The work in this thesis aims to help VR improve the detection of bad quality Kinesis data by designing and implementing a near-realtime data quality validation solution. By digging deeper into VR's domain, this thesis presents the process of creating a proof-of-concept data validation solution that was successfully deployed into VR's test environment. The core component of the solution, an application intended to validate the quality of data within a near-realtime stream, was evaluated with simulated data closely matching to a real life scenario and the results were twofold. The implemented solution turned out meet most of VR's requirements but further work was seen to be required for reducing the complexity of the solution. The performance of the solution was also deemed poor in comparison to its monetary cost and all of these results combined offer valuable insights for future practitioners looking to implement similar system designs.

Digitalisaation jatkuva kasvu voi parantaa monien erilaisten organisaatioiden liiketoimintaa, mutta se voi myös tuoda vahvemmin esiin tarpeen paremmille laadunvarmistusprosesseille. Näin on käynyt esimerkiksi VR:lle, joka on viime aikoina alkanut kärsimään huonolaatuisen datan ongelmista. Muutaman viimeisen vuoden aikana VR on ryhtynyt keskittämään monia systeemi-integraatioitaan niin sanotulle data-alustalle, jonka tarkoituksena on tarjota dataa organisaation laajuisesti. Tämän data-alustan IT infrastruktuuria operoidaan täysin Amazon Web Services -pilvipalvelussa ja se on mahdollistanut monien modernien teknologioiden käytön erinäisten lähes reaaliajassa toimivien dataputkien rakentamisessa. Osa näistä dataputkista on implementoitu tietyllä viestinvälitysteknologialla nimeltään AWS Kinesis ja eritoten näissä integraatioissa datan laatu on aiheuttanut ongelmia. Tässä työssä pyritään auttamaan VR:ää parantamaan huonolaatuisen datan havainnointia suunnittelemalla ja implementoimalla lähes reaaliajassa toimiva validointiratkaisu. Työ esittelee koko prosessin tämän ratkaisun luomisesta ja lopputuloksena syntynyt ohjelmistokokonaisuus julkaistiin onnistuneesti VR:n testiympäristöön. Ratkaisun keskeisintä komponenttia eli datan validointityökalua arvioitiin tässä testiympäristössä simuloidulla rautatieliikenteeseen liittyvällä datalla ja saadut tulokset olivat kahtiajakoiset. Työkalun nähtiin toimivan enimmäkseen kuten oli toivottu, mutta arviointikriteereiden perusteella tunnistettiin muutamia jatkokehityksen tarpeita. Ennen työkalun julkaisua testiympäristön ulkopuolelle, sen käytön monimutkaisuutta ja suorittamisen rahallista kustannusta tulisi pyrkiä vähentämään. Näiden tulosten perusteella kaikkien tulisi miettiä tarkkaan onko samalla periaatteella toimivaa validointityökalua hyödyllistä implementoida omaan käyttöön.
Description
Supervisor
Truong, Hong-Linh
Thesis advisor
Karavirta, Tuomas
Keywords
data quality, data validation, data stream, cloud computing
Other note
Citation