Predicting User Web Behaviour with Machine Learning Methods
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2024-01-22
Department
Major/Subject
Machine Learning, Data Science and Artificial Intelligence
Mcode
SCI3044
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
40
Series
Abstract
Clickstream data is an important source of insights into user behavior on web services. This thesis delves into the analysis of real-world clickstream data collected from a survey tool employed by an electrical company. We investigate the advantages of analyzing such data and its potential applications. A comprehensive review of the existing literature on website user behavior analysis sets the foundation for our research. Leveraging this knowledge, we implement five distinct deep learning models: a linear model, an autoencoder, two recurrent neural networks, and a transformer-based model, catering to both tabular and sequential data inputs. These models are designed as classifiers to predict items that users are likely to buy, if any. Evaluation and training of these models is conducted using a three-way holdout method. We address the challenge of processing data comprising urls and event strings employing learned embeddings before feeding them into our classifiers. After fine-tuning, these classifiers demonstrate the ability to discern patterns in the input data, suggesting their potential in analyzing a wider array of clickstream data beyond the scope of the survey tool. This research improves our understanding of user behavior analysis, particularly highlighting the suitability of sequential models for clickstream data. The thesis outlines detailed implementation processes, emphasizing the importance of a balanced and unbiased dataset in effective learning. These methods, as demonstrated, are viable tools for analyzing user behavior in the web.Klikkivirtadata on tärkeä tiedonlähde verkkosivuston kävijöiden käyttäytymisestä. Tämä diplomityö keskittyy energiayhtiön kyselytyökalun keräämän datan analysoimiseen. Tutkimme kyseisen datan analysoinnin hyötyjä ja mahdollisia sovelluksia. Ratkaisut perustuvat kattavaan kirjallisuuskatsaukseen, jonka pohjalta toteutamme viisi erilaista koneoppimismallia: lineaarisen mallin, autoenkooderin, kaksi takaisinkytkettyä neuroverkkoa ja transformer-pohjaisen mallin. Näistä kaksi ensimmäistä mallia soveltuu taulukkomaiselle datalle, kun taas loput sekvenssidatalle. Mallien tehtävänä on luokitella mitä tuotteita käyttäjä todennäköisesti ostaisi, tai aikooko hän ostaa mitään. Mallien arviointi ja koulutus suoritetaan pohjadatan kolmijakoisella menetelmällä, missä pohjadata jaetaan koulutus-, validointi- sekä testidataan. Olennainen osa pohjadatan esikäsittelyä on tekstipohjaisten arvojen muuntaminen vektoreiksi. Tässä yhteydessä opitut upotukset (learned embeddings) osoittautuivat tuottavan parhaat tulokset. Koulutuksen ja hyperparametrien hienosäätöjen jälkeen mallit onnistuvat luokittelemaan tuotteita pohjadatan perusteella, mikä viittaa mahdollisuuksiin käyttää malleja myös kyselytyökalun ulkopuolella. Tämä työ parantaa ymmärrystämme kävijädatan analysoinnista korostaen sekvenssimalleille ominaista soveltuvuutta kyseiseen dataan. Työn toteutukset esitellään yksityiskohtaisesti painottaen tasapainoisen datan merkitystä.Description
Supervisor
Jung, AlexThesis advisor
Purontaus, LauraAstala, Toni
Keywords
machine learning, deep learning, clickstream, embedding