Better Utilization of Relational Data in Machine Learning
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2021-05-17
Department
Major/Subject
Computer Science
Mcode
SCI3042
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
26
Series
Abstract
The thesis will introduce geometric deep learning and its benefits for solving problems where the data has relations between the different data points compared to other common machine learning methods that work well with tabular format data. One of the most common data that has relations are relational databases. The research question that this thesis aims to answer is, how to make a better utilization of relational data in machine learning. The hypothesis then is that we are able to better utilize relational data in machine learning by the use of graph neural networks. We will be using real world e-commerce data to solve a propensity to churn problem. Propensity to churn is a predictive model that is able to predict the risk of the customer leaving. By creating a classification model that could recognize such customers, the company could concentrate on these customers and keep the customers. The hypothesis space of the model will be binary where the customer has either churned or not. Since the data set that we used is highly imbalanced, we chose Matthews Correlation Coefficient loss which is able to deal with the imbalance of the data. Similarly we used MCC and precision-recall for our metrics. In our experiments we achieved an MCC value of 0.46 which is significant since the range of MCC is from -1 to 1 where -1 represents negative correlation, $0$ represents an average random prediction and 1 representing perfect positive correlation. Also, our model was able to perform considerably better than our baseline logistic regression model which was not able to generalize well on the data.Opinnäytetyö esittelee geometrisen syväoppimisen ja sen edut sellaisten ongelmien ratkaisemisessa, joissa datalla on relaatiota eri datapisteiden välillä. Muut yleisimmät koneoppimismenetelmät toimivat hyvin taulukkomuotoisten tietojen kanssa, eivätkä pysty hyödyntämään relaatiodataa kuten geometrisen syväoppimisen menetelmät. Yksi yleisimmistä datamuodoista, joilla on suhteita ovat relaatiotietokannat. Tutkimuskysymys, johon tässä opinnäytetyössä pyritään vastaamaan on, miten relaatiodataa voidaan hyödyntää paremmin koneoppimisessa. Hypoteesi on se, että on mahdollista paremmin hyödyntämään relaatiodataa koneoppimisessa käyttämällä graafisia neuroverkkoja. Diplomityössä käytämme oikeata verkkokauppa dataa ratkaisemaan asiakaspoistuma ongelman. Kyseinen malli on ennakoiva malli, joka pystyy ennustamaan asiakkaan poistumisriskin. Luomalla luokitusmallin, joka tunnistaa tällaiset asiakkaat, yritys voisi keskittyä näihin asiakkaisiin. Mallin hypoteesiluokka on binääri, missä asiakas on joko lopettanut yrityksen palveluiden käytön tai ei. Koska käyttämämme datajoukko on erittäin epätasapainoinen, valitsimme Matthews Correlation Coefficient tappiofunktion, joka pystyy käsittelemään datan epätasapainoa. Samoista syistä päätimme käyttää arvosteluparametreina MCC:tä ja precision-recall käyrää. Kokeissamme saavutimme MCC-arvon 0.46 joka on merkittävä, koska MCC:n vaihteluväli on -1:stä 1:een, missä -1 edustaa negatiivista korrelaatiota, 0 edustaa satunnaista ennustetta ja 1 edustaa täydellistä positiivista korrelaatiota. Mallimme pystyi myös suorittamaan huomattavasti paremmin kuin logistinen regressiomalli, joka ei kyennyt yleistämään dataa hyvin.Description
Supervisor
Jung, AlexThesis advisor
Minkkinen, SamiKeywords
machine learning, deep learning, graph neural networks, neural networks, Magento