Poisson factorization with nested data: An application for recommending TV programs in a large dataset

No Thumbnail Available

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis
Ask about the availability of the thesis by sending email to the Aalto University Learning Centre oppimiskeskus@aalto.fi

Date

2017-06-08

Department

Major/Subject

Machine Learning and Data Mining

Mcode

SCI3070

Degree programme

Master’s Programme in Information Networks

Language

en

Pages

44

Series

Abstract

Non-negative matrix factorization models are popular for response prediction in recommender systems. Usually, the predictions are based on the behavioral data of the user population, in which little data is available per user and per recommendable item so that making accurate predictions is difficult. Recommending newly added content is especially hard, and it is referred to as the "cold-start problem". One way to resolve the problem is to incorporate additional metadata into the model, but many of the existing models are hard to extend. This thesis develops a multilevel Poisson factorization model that incorporates the grouping information of items using principles from multilevel modeling. The inference algorithm is conducted with stochastic gradient variational inference so the model can be easily refined and extended further. The model is evaluated with watching behavior data from an online streaming service, where the groupings of items are TV series. The results indicate that the multilevel model improves the predictive accuracy compared to the baseline models within the particular dataset. As the study was conducted on a single dataset alone, further research is needed to be able to generalize the results to different contexts. Finally, the thesis highlights a promising development of generic inference and modeling tools, a development referred to as probabilistic programming. Probabilistic programming makes it easier to explore and incorporate richer probabilistic models for recommender systems.

Suosittelujärjestelmät hyödyntävät matriisihajotelmapohjaisia malleja ennustamaan sisällön kulutusta olemassa olevan käyttäytymisdatan perusteella. Usein vain vähän dataa on saatavilla käyttäjää ja sisältöä kohden, mikä vaikeuttaa tarkkojen ennusteiden tekemistä. Etenkin uusi sisältö tuottaa haasteita, koska lyhyessä ajassa havaintoja ei ehdi kertyä tarpeeksi. Yksi ratkaisu parantaa ennusteiden laatua on lisätä käyttäytymisdatan rinnalle muuta metatietoa, mutta nykyisten mallien laajentaminen on usein vaikeaa. Tässä työssä kehitetään monitasoinen Poisson-hajotelma, joka hyödyntää sisällön ryhmittelytietoa todennäköisyysmallissa. Mallin parametrit päätellään stokastisen gradientin variationaalisella päättelyllä, joka mahdollistaa mallin helpon jatkokehityksen ja muokkaamisen. Mallia arvioidaan online-suoratoistopalvelun katseluaineistolla. Tuloksien perusteella malli parantaa suositteluita vertailukohtiin nähden kyseisellä aineistolla. Lisätutkimusta tarvitaan tulosten yleistämiseen muihin konteksteihin. Työ myös korostaa hyötyjä geneerisen päättelyn ja mallinnustyökalujen kehityksessä, mihin viitataan usein termillä probabilistinen ohjelmointi. Probabilistinen ohjelmointi mahdollistaa monipuolisempien todennäköisyysmallien tuomisen suosittelujärjestelmiin.

Description

Supervisor

Vehtari, Aki

Thesis advisor

Sinkkonen, Janne

Keywords

recommender systems, collaborative filtering, matrix factorization, multilevel modeling, variational inference

Other note

Citation