Better Utilization of Relational Data in Machine Learning

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2021-05-17

Department

Major/Subject

Computer Science

Mcode

SCI3042

Degree programme

Master’s Programme in Computer, Communication and Information Sciences

Language

en

Pages

26

Series

Abstract

The thesis will introduce geometric deep learning and its benefits for solving problems where the data has relations between the different data points compared to other common machine learning methods that work well with tabular format data. One of the most common data that has relations are relational databases. The research question that this thesis aims to answer is, how to make a better utilization of relational data in machine learning. The hypothesis then is that we are able to better utilize relational data in machine learning by the use of graph neural networks. We will be using real world e-commerce data to solve a propensity to churn problem. Propensity to churn is a predictive model that is able to predict the risk of the customer leaving. By creating a classification model that could recognize such customers, the company could concentrate on these customers and keep the customers. The hypothesis space of the model will be binary where the customer has either churned or not. Since the data set that we used is highly imbalanced, we chose Matthews Correlation Coefficient loss which is able to deal with the imbalance of the data. Similarly we used MCC and precision-recall for our metrics. In our experiments we achieved an MCC value of 0.46 which is significant since the range of MCC is from -1 to 1 where -1 represents negative correlation, $0$ represents an average random prediction and 1 representing perfect positive correlation. Also, our model was able to perform considerably better than our baseline logistic regression model which was not able to generalize well on the data.

Opinnäytetyö esittelee geometrisen syväoppimisen ja sen edut sellaisten ongelmien ratkaisemisessa, joissa datalla on relaatiota eri datapisteiden välillä. Muut yleisimmät koneoppimismenetelmät toimivat hyvin taulukkomuotoisten tietojen kanssa, eivätkä pysty hyödyntämään relaatiodataa kuten geometrisen syväoppimisen menetelmät. Yksi yleisimmistä datamuodoista, joilla on suhteita ovat relaatiotietokannat. Tutkimuskysymys, johon tässä opinnäytetyössä pyritään vastaamaan on, miten relaatiodataa voidaan hyödyntää paremmin koneoppimisessa. Hypoteesi on se, että on mahdollista paremmin hyödyntämään relaatiodataa koneoppimisessa käyttämällä graafisia neuroverkkoja. Diplomityössä käytämme oikeata verkkokauppa dataa ratkaisemaan asiakaspoistuma ongelman. Kyseinen malli on ennakoiva malli, joka pystyy ennustamaan asiakkaan poistumisriskin. Luomalla luokitusmallin, joka tunnistaa tällaiset asiakkaat, yritys voisi keskittyä näihin asiakkaisiin. Mallin hypoteesiluokka on binääri, missä asiakas on joko lopettanut yrityksen palveluiden käytön tai ei. Koska käyttämämme datajoukko on erittäin epätasapainoinen, valitsimme Matthews Correlation Coefficient tappiofunktion, joka pystyy käsittelemään datan epätasapainoa. Samoista syistä päätimme käyttää arvosteluparametreina MCC:tä ja precision-recall käyrää. Kokeissamme saavutimme MCC-arvon 0.46 joka on merkittävä, koska MCC:n vaihteluväli on -1:stä 1:een, missä -1 edustaa negatiivista korrelaatiota, 0 edustaa satunnaista ennustetta ja 1 edustaa täydellistä positiivista korrelaatiota. Mallimme pystyi myös suorittamaan huomattavasti paremmin kuin logistinen regressiomalli, joka ei kyennyt yleistämään dataa hyvin.

Description

Supervisor

Jung, Alex

Thesis advisor

Minkkinen, Sami

Keywords

machine learning, deep learning, graph neural networks, neural networks, Magento

Other note

Citation