Poisson factorization with nested data: An application for recommending TV programs in a large dataset

No Thumbnail Available
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Ask about the availability of the thesis by sending email to the Aalto University Learning Centre oppimiskeskus@aalto.fi
Date
2017-06-08
Department
Major/Subject
Machine Learning and Data Mining
Mcode
SCI3070
Degree programme
Master’s Programme in Information Networks
Language
en
Pages
44
Series
Abstract
Non-negative matrix factorization models are popular for response prediction in recommender systems. Usually, the predictions are based on the behavioral data of the user population, in which little data is available per user and per recommendable item so that making accurate predictions is difficult. Recommending newly added content is especially hard, and it is referred to as the "cold-start problem". One way to resolve the problem is to incorporate additional metadata into the model, but many of the existing models are hard to extend. This thesis develops a multilevel Poisson factorization model that incorporates the grouping information of items using principles from multilevel modeling. The inference algorithm is conducted with stochastic gradient variational inference so the model can be easily refined and extended further. The model is evaluated with watching behavior data from an online streaming service, where the groupings of items are TV series. The results indicate that the multilevel model improves the predictive accuracy compared to the baseline models within the particular dataset. As the study was conducted on a single dataset alone, further research is needed to be able to generalize the results to different contexts. Finally, the thesis highlights a promising development of generic inference and modeling tools, a development referred to as probabilistic programming. Probabilistic programming makes it easier to explore and incorporate richer probabilistic models for recommender systems.

Suosittelujärjestelmät hyödyntävät matriisihajotelmapohjaisia malleja ennustamaan sisällön kulutusta olemassa olevan käyttäytymisdatan perusteella. Usein vain vähän dataa on saatavilla käyttäjää ja sisältöä kohden, mikä vaikeuttaa tarkkojen ennusteiden tekemistä. Etenkin uusi sisältö tuottaa haasteita, koska lyhyessä ajassa havaintoja ei ehdi kertyä tarpeeksi. Yksi ratkaisu parantaa ennusteiden laatua on lisätä käyttäytymisdatan rinnalle muuta metatietoa, mutta nykyisten mallien laajentaminen on usein vaikeaa. Tässä työssä kehitetään monitasoinen Poisson-hajotelma, joka hyödyntää sisällön ryhmittelytietoa todennäköisyysmallissa. Mallin parametrit päätellään stokastisen gradientin variationaalisella päättelyllä, joka mahdollistaa mallin helpon jatkokehityksen ja muokkaamisen. Mallia arvioidaan online-suoratoistopalvelun katseluaineistolla. Tuloksien perusteella malli parantaa suositteluita vertailukohtiin nähden kyseisellä aineistolla. Lisätutkimusta tarvitaan tulosten yleistämiseen muihin konteksteihin. Työ myös korostaa hyötyjä geneerisen päättelyn ja mallinnustyökalujen kehityksessä, mihin viitataan usein termillä probabilistinen ohjelmointi. Probabilistinen ohjelmointi mahdollistaa monipuolisempien todennäköisyysmallien tuomisen suosittelujärjestelmiin.
Description
Supervisor
Vehtari, Aki
Thesis advisor
Sinkkonen, Janne
Keywords
recommender systems, collaborative filtering, matrix factorization, multilevel modeling, variational inference
Other note
Citation