Predicting User Web Behaviour with Machine Learning Methods

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2024-01-22

Department

Major/Subject

Machine Learning, Data Science and Artificial Intelligence

Mcode

SCI3044

Degree programme

Master’s Programme in Computer, Communication and Information Sciences

Language

en

Pages

40

Series

Abstract

Clickstream data is an important source of insights into user behavior on web services. This thesis delves into the analysis of real-world clickstream data collected from a survey tool employed by an electrical company. We investigate the advantages of analyzing such data and its potential applications. A comprehensive review of the existing literature on website user behavior analysis sets the foundation for our research. Leveraging this knowledge, we implement five distinct deep learning models: a linear model, an autoencoder, two recurrent neural networks, and a transformer-based model, catering to both tabular and sequential data inputs. These models are designed as classifiers to predict items that users are likely to buy, if any. Evaluation and training of these models is conducted using a three-way holdout method. We address the challenge of processing data comprising urls and event strings employing learned embeddings before feeding them into our classifiers. After fine-tuning, these classifiers demonstrate the ability to discern patterns in the input data, suggesting their potential in analyzing a wider array of clickstream data beyond the scope of the survey tool. This research improves our understanding of user behavior analysis, particularly highlighting the suitability of sequential models for clickstream data. The thesis outlines detailed implementation processes, emphasizing the importance of a balanced and unbiased dataset in effective learning. These methods, as demonstrated, are viable tools for analyzing user behavior in the web.

Klikkivirtadata on tärkeä tiedonlähde verkkosivuston kävijöiden käyttäytymisestä. Tämä diplomityö keskittyy energiayhtiön kyselytyökalun keräämän datan analysoimiseen. Tutkimme kyseisen datan analysoinnin hyötyjä ja mahdollisia sovelluksia. Ratkaisut perustuvat kattavaan kirjallisuuskatsaukseen, jonka pohjalta toteutamme viisi erilaista koneoppimismallia: lineaarisen mallin, autoenkooderin, kaksi takaisinkytkettyä neuroverkkoa ja transformer-pohjaisen mallin. Näistä kaksi ensimmäistä mallia soveltuu taulukkomaiselle datalle, kun taas loput sekvenssidatalle. Mallien tehtävänä on luokitella mitä tuotteita käyttäjä todennäköisesti ostaisi, tai aikooko hän ostaa mitään. Mallien arviointi ja koulutus suoritetaan pohjadatan kolmijakoisella menetelmällä, missä pohjadata jaetaan koulutus-, validointi- sekä testidataan. Olennainen osa pohjadatan esikäsittelyä on tekstipohjaisten arvojen muuntaminen vektoreiksi. Tässä yhteydessä opitut upotukset (learned embeddings) osoittautuivat tuottavan parhaat tulokset. Koulutuksen ja hyperparametrien hienosäätöjen jälkeen mallit onnistuvat luokittelemaan tuotteita pohjadatan perusteella, mikä viittaa mahdollisuuksiin käyttää malleja myös kyselytyökalun ulkopuolella. Tämä työ parantaa ymmärrystämme kävijädatan analysoinnista korostaen sekvenssimalleille ominaista soveltuvuutta kyseiseen dataan. Työn toteutukset esitellään yksityiskohtaisesti painottaen tasapainoisen datan merkitystä.

Description

Supervisor

Jung, Alex

Thesis advisor

Purontaus, Laura
Astala, Toni

Keywords

machine learning, deep learning, clickstream, embedding

Other note

Citation