Data Anomaly detection for Liquidity Risk Data - Investigating Data Quality with Machine Learning to improve Strategic Decision-Making

No Thumbnail Available

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2024-05-22

Department

Major/Subject

Strategy

Mcode

SCI3109

Degree programme

Master’s Programme in Industrial Engineering and Management

Language

en

Pages

77+4

Series

Abstract

When making decisions, banks need to account for three factors of strategy, regulation and compliance with different regulatory metrics and the risk appe-tite set by the board of the bank. Effective data quality management ensures that banks are able to make necessary and timely decisions that highlight the balance between profit making and risk. On the other hand, data quality man-agement is often time consuming and rule-based requiring human inputs to manage and monitor the rules implemented. Machine learning is an option to be used for automated data quality management. This thesis studied possibilities of machine learning in improving data anomaly detection for liquidity risk data. There were five machine learning models trained and tested. Four of the models were supervised machine learning models whereas one was unsupervised model. Extreme Gradient Boosting (XGBoost) was found to be the best model due to its good perfor-mance but also due to the low need of data pre-processing. In addition to test-ing six machine learning models, approximation model for contextual data anomalies was made in this thesis. Based on the results, the thesis suggests that XGBoost could be used to de-tect data anomalies in liquidity risk data when data anomalies are created with the contextual data anomality approximation model. Future work could focus on incorporating more categorical features into data anomaly detection model. Also, more robust ways for labeling data as anomalous are needed to reduce the effect of seasonality.

Pankin strategia, sääntely ja sääntelynmukaisuus sekä pankin riskinottohaluk-kuus ovat tärkeimmät tekijät pankkien päätöksenteossa. Tehokas datan laadun valvonta auttaa pankkeja tekemään tarvittavat päätökset oikea-aikaisesti. Tällä tavalla varmistetaan tuoton ja riskin tasapaino. Toisaalta datan laadun valvonta vie aikaa ja on usein toteutettu sääntöperustaisesti. Sääntöperustaisuus vaatii, että työntekijä valvoo ja hallinnoi sääntöjä. Koneoppimisen avulla datan laadun valvonta voitaisiin mahdollisesti automatisoida. Diplomityö tutkii koneoppimisen hyötyjä erään pohjoismaalaisen pankin likviditeettiriskidatalle. Työssä tutkitaan, voisiko koneoppiminen auttaa datapoikkeamien nopeammassa löytämisessä ja siten vähentää datan laadun valvontaan käytettyä työaikaa. Työssä kokeillaan viittä erilaista koneoppimismallia, joista neljä ovat ohjatun oppimisen malleja ja yksi ohjaamattoman oppimisen malli. Parhaaksi malliksi valikoitui XGBoost-menetelmä. Mallin etuina olivat hyvä ennustetarkkuus sekä se, että dataa ei tarvitse prosessoida etukäteisesti. Koneoppimismallien lisäksi työssä luotiin approksimaatiomalli kontekstuaalisille datapoikkeamille. Työn tuloksien perusteella XGBoost-menetelmä sopii hyvin maksuvalmius-riskidatan poikkeamien tutkimiseen, kun poikkeamat ovat luotu työssä käytetyllä approksimaatiomallilla. Mallia tulee kuitenkin vielä tutkia siten, että käytettyjen kategoristen muuttujien määrää lisätään. Lisäksi, kontekstuaalisten datapoikkeamien mallia täytyy vielä kehittää, jotta se ei ota huomioon luvuissa olevaa kausivaihtelua.

Description

Supervisor

Luoma, Jukka

Thesis advisor

Juntunen, Risto

Keywords

data anomaly detection, data quality, machine learning, liquidity coverage ratio (LCR)

Other note

Citation