A Probabilistic Content-Based News Recommender System

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2015-06-10
Department
Major/Subject
Ohjelmistotekniikka
Mcode
T3001
Degree programme
Tietotekniikan koulutusohjelma
Language
en
Pages
62 + 6
Series
Abstract
Digital content can be created and published in large quantities and at low costs. News publications in particular benefit from being able to reach readers without delay, and because the digital newspaper pages are virtually infinite in size, there is plenty of room for diversity. As the amount of content and variety increase, however, it becomes harder and harder for readers to find relevant news stories. Using knowledge about every news item that has been published and the preferences of readers, news recommender systems provide each user with personalized recommendations. They reduce user effort and make content more accessible and discoverable. In this thesis the development of a news recommender system is explored with the primary target of finding a simple and extensible solution. Using probability theory as a framework, a model of user behavior is iteratively derived through experimentation and validation. It calculates the probability that an item is selected among a set of candidate items. The model consists of several smaller parts, each of which focus on different aspects of what makes news interesting. Some are personalized and adapt to the user’s behavior, while others reflect general usage patterns. There are many challenges involved, and a major one is the cold start problem, which can cause bad results when assumptions are made based on insufficient knowledge. This challenge, and more, define additional requirements on the implementation. By optimizing for minimal mean cross entropy against the empirical selection distribution of several users, accurate and composable models are found. The time and space complexities of the model are low and there is a straight-forward and mathematically sound way to extend the system further. Evaluation metrics such as item coverage and recommendation diversity provide insight into the large scale behavior of the system and confirm the utility of personalization.

Digitalt innehåll kan skapas och publiceras i stora mängder och till låga kostnader. Nyhetsförmedlingar i synnerhet kan dra nytta av möjligheten att genast nå läsare och eftersom det digitala pappret är så gott som oändligt finns det rum för mångfald. Men allt som storleken på innehållet och variationen ökar blir det svårare och svårare för läsare att finna relevanta nyheter. Genom att använda kunskap om varje nyhet som publicerats och läsarnas intressen kan ett rekommendationssystem tillgodose varje läsare med personliga rekommendationer. De underlättar användandet och gör innehållet lättillgängligt och enkelt att få en översikt av. I det här diplomarbetet undersöks utvecklandet av ett nyhetsrekommendationssystem vars främsta mål är att finna en enkel lösning som kan utökas. Med sannolikhetslära som grund härleds en modell av användarbeteende genom upprepade experiment och validering. Modellen räknar ut sannolikheten att en nyhet väljs bland en mängd valmöjligheter. Den består av flera mindre delar och var och en av dem fokuserar på olika aspekter av vad som gör nyheter intressanta. En del skräddarsyr resultaten och anpassar sig till användarens beteende och andra speglar allmänna användningsmönster. Det finns många utmaningar varav kallstartsproblemet är viktig, vilken kan leda till odugliga resultat när antaganden görs med otillräcklig information. Denna utmaning bland andra utgör ytterligare krav på implementationen Genom att optimera för minimal medelkorsentropi gentemot flera användares empiriska valdistributioner skapas modeller som ger goda resultat och vilka kan sammanslås. Modellens tids- och rymdkomplexiteter är låga och det finns enkla och matematiskt korrekta sätt att vidare utöka systemet. Utvärderingsmått som täckning och rekommendationsmångfald beskriver modellens storskaliga beteende och bekräftar nyttan av personliga rekommendationer.
Description
Supervisor
Saikkonen, Heikki
Thesis advisor
Rauhala, Antti
Keywords
recommender system, content-based, cross entropy, perplexity, diversity, news
Other note
Citation