On the effect of product representations and contextual information on clustering of shopping baskets

No Thumbnail Available

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2023-08-22

Department

Major/Subject

Systems and Operations Research

Mcode

SCI3055

Degree programme

Master’s Programme in Mathematics and Operations Research

Language

en

Pages

81

Series

Abstract

In the competitive world of retail, the preferences of the customer base need to be considered for efficient assortment planning. Customer segmentation is the process of dividing a store's clientele into segments by common characteristics, such as shopping behaviour or demographics. The goal of this thesis is to utilize point-of-sale data to learn application-specific product vector representations for grocery products, and to use the representations for shopping basket clustering to find customer segments. We explore representation learning methods to learn product, basket, and customer vector representations for the purpose of clustering. Four different product representation learning approaches, along with a basket representation model, are implemented and evaluated. The models are based on negative sampling and co-occurrence information from the shopping baskets. Three clustering methods are employed based on the product and basket representations to identify customer segments and related products for assortment planning. The models are trained on online grocery store data. We also evaluate the importance of using customer loyalty data in the models. The study concludes that the used representation models provide promising results in generating interpretable product, basket, and customer vectors. We also evaluate the learned vector representations. The clustering results provide insights into the existing customer segments. While the clustering methods give consistent results, they yield only a reasonably small number of customer segments. We investigate the root causes of the limited interpretability in some results. Lastly, we propose improvements to the used representation learning methods. These include extending the analysis to grocery retail data from a physical store to validate the results. Overall, this research contributes to data-driven decision making in retail and suggests how assortment planning can be automated using point-of-sale data, although further research is still required before applying the results in real-life applications.

Vähittäiskaupan alan kovassa kilpailussa asiakaskunnan mieltymykset on otettava huomioon tehokkaan valikoimasuunnittelun takaamiseksi. Asiakassegmentointi tarkoittaa myymälän asiakaskunnan jakamista segmentteihin yhteisten ominaisuuksien, kuten ostokäyttäytymisen perusteella. Tämän diplomityön tavoitteena on hyödyntää myyntipisteaineistoa tuote-esitysten oppimiseen, ja käyttää opittuja tuote-esityksiä ostoskorien klusterointiin sekä asiakassegmenttien löytämiseen. Tässä diplomityössä tutkitaan esitysoppimismenetelmiä tuote-, ostoskori- ja asiakasvektoriesitysten oppimiseksi klusterointia varten. Menetelmien eroja myös evaluoidaan. Koulutamme ja analysoimme neljää erilaista tuote-esitysmallia sekä yhtä ostoskoriesitysmallia. Mallit perustuvat vertailevaan oppimiseen sekä tuotteiden yhteisesiintyvyyteen ostoskoreissa. Klusterointiin käytetään kolmea eri menetelmää, jotka perustuvat tuote- tai koriesityksiin. Menetelmien tuloksia analysoidaan asiakassegmenttien ja toisiinsa liittyvien tuotteiden löytämiseksi valikoimasuunnittelua varten. Mallien koulutukseen käytetään verkkoruokakaupan myyntiaineistoa. Myös asiakkuusdatan tarpeellisuutta arvioidaan. Tässä diplomityössä todetaan, että käytetyt esitysoppimismallit tuottavat lupaavia ja selitettävissä olevia tuote-, kori- ja asiakasvektoreita. Klusteroinnin tuloksien avulla aineistosta havaitaan asiakassegmenttejä. Vaikka klusterointimenetelmät antavat selitettäviä tuloksia, ne onnistuvat löytämään vain muutamia asiakassegmenttejä. Yhden klusterointimenetelmän heikkojen tulosten juurisyitä analysoidaan. Lopulta ehdotamme ideoita jatkotutkimukseen sekä ostoskorien klusterointimenetelmien parantamiseen. Analyysia tulisi esimerkiksi laajentaa tutkimalla myös fyysisten päivittäistavarakauppojen aineistoa, jotta tulokset voitaisiin validoida. Tämän diplomityön menetelmillä voidaan edistää datapohjaista päätöksentekoa vähittäiskaupan alalla sekä automatisoida valikoimasuunnittelua kuittiaineiston pohjalta, vaikka lisätutkimusta tarvitaankin ennen menetelmien soveltamista käytäntöön.

Description

Supervisor

Ilmonen, Pauliina

Thesis advisor

Ollila, Santtu

Keywords

clustering, representation learning, permutation invariance, point-of-sale data, loyalty data

Other note

Citation