Forecasting Seasonal Demand at the Product Level in Grocery Retail
Loading...
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Author
Date
2021-05-17
Department
Major/Subject
Complex Systems
Mcode
SCI3060
Degree programme
Master’s Programme in Life Science Technologies
Language
en
Pages
52 + 11
Series
Abstract
The grocery retail industry is highly competitive with razor-thin margins. Retailers are inclined to cut their costs in any way possible to remain competitive. Forecasting sales and product demand precisely have profound impacts, and it holds high strategic importance for retailers. It helps retailers to decrease waste, optimize order sizes from suppliers and the required workforce. This study examines whether advanced machine learning methods such as random forest, recurrent neural network, or Bayesian hierarchical modeling can outperform a simple linear regression model at forecasting seasonal demand. The study aims to find out if product-level predictions yield better results than product-group-level predictions. Further, this study demonstrates the challenges of predicting over 300 000 unique products' seasonality and how well different evaluation metrics define and justify the results. The study results indicate that an increase in the level of complexity of models does not always guarantee superior results. The subtleties such as inspection level, clean point of sales data, and well-chosen model for a problem play a more critical role in the success. The random forest is the best-performing model at the product level. This study also revealed that product group-level forecasts are more accurate than product-level forecasts. Obtained results imply that predicting the seasonal demand of over 300 000 unique products creates many corner cases to consider. Understanding them requires an extensive dive into the data. Other concerns lie in data quality and examining the importance of features. Traditional evaluation metrics such as mean absolute percentage error and Spearman rank correlation coefficient do not fit the purpose of predicting the seasonal demand, especially if the objective is not clearly defined. However, they are an excellent proxy to infer the performance between individual models. This study suggests companies to craft domain-specific features and define clear goals of the seasonal demand to find proper evaluation metrics. It also recommends that they tackle the imbalance between predictions of best- and worst-selling products to remain competitive and fulfill customer satisfaction.Päivittäistavarakaupan ala on erittäin kilpailtu hiuksenhienoin marginaalein. Vähittäiskauppiaat pyrkivät vähentämään kustannuksiaan kaikin mahdollisin tavoin pysyäkseen kilpailukykyisinä. Tuotteiden myynnin ja kysynnän täsmällisellä ennustamisella on huomattavia vaikutuksia ja iso strateginen merkitys vähittäiskauppiaille. Se auttaa heitä vähentämään jätteen määrää ja optimoimaan tilauksia sekä tarvittavan työvoiman määrää. Tämä työ tutkii suoriutuvatko edistyneet koneoppimismenetelmät yksinkertaista lineaarista regressiota paremmin kausittaisen kysynnän ennustamisessa. Tarkastellut koneoppimismenetelmät ovat satunnaismetsä, takaisinkytketty neuroverkko sekä bayesilainen hierarkkinen mallinnus. Tämä työ selvittää antavatko tuotetason ennusteet parempia tuloksia kuin tavararyhmätason ennusteet. Lisäksi työssä tarkastellaan, mitä haasteita seuraa ennustettaessa yli 300 000:n tuotteen kausivaihtelua, ja kuinka hyvin erilaiset arviointimittarit perustelevat tuloksia. Tulokset osoittavat, että mallien monimutkaisuus ei takaa osuvampia ennusteita. Yksityiskohdat, kuten tarkastelutaso, puhdas myyntipistedata ja hyvin valittu malli ovat tärkeämmässä roolissa. Tuotetasolla parhaiten menestyvä malli on satunnaismetsä mutta yleisellä tasolla tavararyhmätaso ennustaa tarkemmin. Tulokset viittaavat siihen, että yli 300 000:n tuotteen kausivaihtelun ennustaminen tuo monia haasteita, joiden ratkaiseminen vaatii laajaa kauppadatan ymmärtämistä. Muita merkittäviä aiheita ovat datan laatu ja muuttujien merkitsevyyden tutkiminen. Perinteiset arviointimittarit, kuten prosentuaalinen absoluuttinen keskivirhe ja Spearmanin järjestyskorrelaatiokerroin eivät sovi kausivaihtelun ennustamiseen, varsinkaan jos tavoitetta ei ole määritelty selkeästi. Silti ne toimivat erinomaisena arviona yksittäisten mallien välisen suorituskyvyn mittaamisessa. Työ suosittelee yrityksiä rakentamaan koneoppimismalleille enemmän toimialakohtaisia muuttujia ja määrittelemään kausivaihtelulle selkeät tavoitteet löytääkseen toimivat arviointimittarit. Yritysten tulisi myös selvittää ennusteiden epätasapaino parhaiten ja huonoiten myyvien tuotteiden välillä säilyttääkseen kilpailukykynsä ja taatakseen asiakastyytyväisyyden.Description
Supervisor
Kivelä, MikkoThesis advisor
Latva-Pukkila, NiiloKeywords
random forest, long short-term memory, Bayesian hierarchical modeling, seasonal demand, time series forecasting, grocery retail