Customer churn is a challenge for subscription-based businesses, where long-term customer relationships form the basis of their growth. Churn can result from behavioural, operational, and contextual factors that can be difficult to identify without a data-driven approach. This thesis investigates the early signals of customer loss by taking the customer telemetry and product usage to the scope. The research aims to find the best predicting features but also evaluates which machine learning approaches are most suitable for this prediction task.
The study first dives into existing research on churn modelling; machine learning methods, feature engineering practices and imbalance handling. The comprehensive dataset was constructed from product usage records, device telemetry and support interactions. Three modelling approaches – Logistic Regression, Random Forest, and Histogram Based Gradient Boosting – were trained using stratified cross-validation, tuned through hyperparameter optimisation, and evaluated on an unseen test set.
The model performance was assessed using ROC AUC, PR AUC, precision, recall, and F1-score, reflecting the costs of false negatives and false positives in churn prediction. The results show that tree-based ensemble models outperform the logistic regression baseline, with gradient boosting model achieving the strongest overall performance.
Feature importance and SHAP analyses indicate that renewal-cycle timing, declining product engagement, and telemetry freshness form the basis of the predictive factors. The case assignment is concluded with the practical implications for retention management, limitations arising from data scope, and directions for extending the modelling with external contextual variables.Asiakaspoistuma on haaste ratkaistavaksi varsinkin yrityksille, joiden liiketoiminta on tilaajapohjaista. Pitkät asiakassuhteet muodostavat perustan pohjan kestävälle kasvulle. Asiakaspoistumaan vaikuttaa moninaiset tekijät käyttäjän sitoutuneisuudesta tuotteiden käyttöön – ja niiden tunnistaminen ilman dataan perustuvaa analyysiä on vaikeaa. Tämä tutkielma tarkastelee aikaisia asiakaspoistuman signaaleja asiakastelemetriaa ja tuotteiden käyttödataa hyödyntämällä. Tavoitteena on tunnistaa parhaiten poistumaa ennakoivia tekijöitä ja arvioida, mitkä koneoppimismenetelmät soveltuvat ennustustehtävään parhaiten.
Tutkimus aloitetaan aiemman churn-mallinnuksen läpikäynnillä, keskittyen
koneoppimismenetelmiin, piirteiden muokkaukseen ja epätasapainoisen
luokitteluongelman käsittelyyn. Empiiristä analyysiä varten koottiin aineisto muun muassa yrityksen loppuasiakkaiden tuotekäytöstä, laitteiden telemetriadatasta sekä asiakastuen käyttötapauksista. Kolme mallinnusmenetelmää, logistinen regressio, random forest ja histogram-based gradient boosting koulutettiin ristiinvalidoinnilla, optimoitiin hyperparametrien osalta ja arvioitiin testiaineistolla.
Mallien suorituskykyä mitattiin ROC AUC-, PR AUC-, precision-, recall- ja F1-
mittareilla. Tulosten perusteella puupohjaiset ensemble-menetelmät menestyivät logistista regressiomallia paremmin.
Feature importance ja SHAP-analyysit osoittivat, että etenkin tilauksen
uusintasyklin ajoitus, laskeva käyttöaktiivisuus sekä telemetriadatan väheneminenovat keskeisiä poistumaa ennakoivia signaaleja. Tutkielma käsittelee myös löydösten käytännön merkitystä, aineiston rajoitteita sekä mahdollista laajentamista koskemaan myös tuote- ja käyttödatan ulkopuolisia tekijöitä.