Demand forecasting is one of the core challenges in retail business and successful supply chain planning. However, many endogenous and exogenous factors make the task very challenging. Simple linear and univariate models are unable to capture many of the complex patterns present in the demand time series. Hence, probabilistic Bayesian models have gained prominence in the field.
The objective of this thesis is to determine whether the probabilistic model specification by Chapados (2014) is sufficient for industrial-scale demand forecasting. The model is a state space model with negative binomial observations and a latent autoregressive (AR) process of order one. The Bayesian inference over the unknown parameters and latent states is carried out with integrated nested Laplace approximation, which is an emerging method suitable for latent Gaussian models (Rue et al., 2009). The results are illustrated on real-world retail data, consisting of 2460 sales time series from a large European retailer. The performance of the model is compared against the forecasting accuracy of a Holt-Winters' exponential smoothing model and a simple naïve model.
Our results regarding the forecasting performance of the model are mixed. In general, no notable accuracy gains could be obtained through the negative binomial state space model in comparison with the benchmark models. In our setup, especially for slow-moving items with intermittent sales, the model generated systematically upward biased forecasts. However, for products with high sales volumes as well as for frequently promoted products, the forecasts by the negative binomial state space model were competitive.
Given the complexity of the framework and the slowness of the inference calculations, the exact reasons for the poor performance remain unclear. We suspect that the latent AR(1) process may not be enough for capturing some correlations in the data. We also notice that formulating a strategy for setting the model priors suitably with a reasonable amount of effort can be very challenging. For future research, we suggest experimenting with the order of the AR process as well as revisiting the strategy for setting the model priors. It could also be investigated whether faster convergence of the inference could be obtained through another inference method.
Kysynnän ennustaminen on onnistuneen tuotantoketjusuunnittelun kulmakiviä. Monet sisäiset ja ulkoiset tekijät tekevät yksittäisten tuotteiden kysynnän ennustamisesta haastavaa. Yksinkertaiset lineaariset mallit eivät ole optimaalisia näiden monimutkaisten aikasarjojen ennustamiseen. Täten todennäköisyyksiä hyödyntävät bayesiläiset koneoppimismallit ovat viime aikoina kasvattaneet suosiotaan alalla.
Tämän diplomityön tavoite on tutkia, soveltuuko Chapadosin (2014) kehittämä negatiivi-binomijakautunut tila-avaruusmalli käytettäväksi todellisessa kysyntäennustesovelluksessa, jossa on kuukausittain miljoonia ennustettavia aikasarjoja. Malli olettaa havaintojen tulevan negatiivi-binomijakaumasta. Lisäksi mallilla on latentti tila, joka kehittyy autoregressiivisen prosessin mukaisesti. Päättelyalgoritmina käytetään integroitua sisäkkäistä Laplace-approksimointia, joka on latenttien Gaussisten mallien päättelyyn sopiva menetelmä (Rue et al., 2009). Mallin suorituskykyä arvioidaan 2460 myyntiaikasarjasta koostuvalla datalla, joka on saatu suurelta eurooppalaiselta vähittäiskauppaketjulta. Mallin ennusteita verrataan Holt-Winters' -mallilla tuotettuihin ennusteisiin sekä yksinkertaiseen keskiarvoennusteeseen.
Diplomityössä saatujen tulosten mukaan negatiivi-binomijakautunut tila-avaruus-malli ei tuottanut merkittävästi parempia ennusteita kuin yksinkertaisemmat verrokkimallit. Erityisen heikkoja mallin ennusteet olivat niin kutsutuille hitaasti liikkuville tuotteille, joiden myyntiaikasarjoissa on paljon rakenteellisia nollia. Suurimyyntisille ja paljon kampanjoiduille tuotteille mallin ennusteet olivat kilpailukykyisiä.
Mallin monimutkaisuuden sekä käytetyn päättelyalgoritmin hitauden vuoksi on vaikeaa tutkia tarkasti, miksi malli ei pärjää yksinkertaisemmille verrokeille ennustamistarkkuudessa. Voi olla, että latentti autoregressiivinen prosessi ei ole sopiva kuvaamaan kysyntäprosessien autokorrelaatioita. Diplomityössä rakennetussa ennustekehikossa tuntemattomien parametrien priorit asetetaan suurelle joukolle keskenään hyvin erilaisia tuotteita. Tällaisessa asetelmassa on hankalaa löytää hyperparametriarvoja, jotka tuottaisivat kaikissa tapauksissa hyviä ennusteita. Jatkotutkimuksessa voitaisiin kokeilla esimerkiksi kasvattaa autoregressiivisen prosessin astetta. Myös erilaiset priorit tai toinen päättelyalgoritmi saattaisivat tuottaa parempia tuloksia.