A Probabilistic Content-Based News Recommender System

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.advisor Rauhala, Antti
dc.contributor.author Ventus, Christoffer
dc.date.accessioned 2015-06-23T10:55:05Z
dc.date.available 2015-06-23T10:55:05Z
dc.date.issued 2015-06-10
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/16647
dc.description.abstract Digital content can be created and published in large quantities and at low costs. News publications in particular benefit from being able to reach readers without delay, and because the digital newspaper pages are virtually infinite in size, there is plenty of room for diversity. As the amount of content and variety increase, however, it becomes harder and harder for readers to find relevant news stories. Using knowledge about every news item that has been published and the preferences of readers, news recommender systems provide each user with personalized recommendations. They reduce user effort and make content more accessible and discoverable. In this thesis the development of a news recommender system is explored with the primary target of finding a simple and extensible solution. Using probability theory as a framework, a model of user behavior is iteratively derived through experimentation and validation. It calculates the probability that an item is selected among a set of candidate items. The model consists of several smaller parts, each of which focus on different aspects of what makes news interesting. Some are personalized and adapt to the user’s behavior, while others reflect general usage patterns. There are many challenges involved, and a major one is the cold start problem, which can cause bad results when assumptions are made based on insufficient knowledge. This challenge, and more, define additional requirements on the implementation. By optimizing for minimal mean cross entropy against the empirical selection distribution of several users, accurate and composable models are found. The time and space complexities of the model are low and there is a straight-forward and mathematically sound way to extend the system further. Evaluation metrics such as item coverage and recommendation diversity provide insight into the large scale behavior of the system and confirm the utility of personalization. en
dc.description.abstract Digitalt innehåll kan skapas och publiceras i stora mängder och till låga kostnader. Nyhetsförmedlingar i synnerhet kan dra nytta av möjligheten att genast nå läsare och eftersom det digitala pappret är så gott som oändligt finns det rum för mångfald. Men allt som storleken på innehållet och variationen ökar blir det svårare och svårare för läsare att finna relevanta nyheter. Genom att använda kunskap om varje nyhet som publicerats och läsarnas intressen kan ett rekommendationssystem tillgodose varje läsare med personliga rekommendationer. De underlättar användandet och gör innehållet lättillgängligt och enkelt att få en översikt av. I det här diplomarbetet undersöks utvecklandet av ett nyhetsrekommendationssystem vars främsta mål är att finna en enkel lösning som kan utökas. Med sannolikhetslära som grund härleds en modell av användarbeteende genom upprepade experiment och validering. Modellen räknar ut sannolikheten att en nyhet väljs bland en mängd valmöjligheter. Den består av flera mindre delar och var och en av dem fokuserar på olika aspekter av vad som gör nyheter intressanta. En del skräddarsyr resultaten och anpassar sig till användarens beteende och andra speglar allmänna användningsmönster. Det finns många utmaningar varav kallstartsproblemet är viktig, vilken kan leda till odugliga resultat när antaganden görs med otillräcklig information. Denna utmaning bland andra utgör ytterligare krav på implementationen Genom att optimera för minimal medelkorsentropi gentemot flera användares empiriska valdistributioner skapas modeller som ger goda resultat och vilka kan sammanslås. Modellens tids- och rymdkomplexiteter är låga och det finns enkla och matematiskt korrekta sätt att vidare utöka systemet. Utvärderingsmått som täckning och rekommendationsmångfald beskriver modellens storskaliga beteende och bekräftar nyttan av personliga rekommendationer. sv
dc.format.extent 62 + 6
dc.format.mimetype application/pdf en
dc.language.iso en en
dc.title A Probabilistic Content-Based News Recommender System en
dc.title Ett probabilistiskt inneh ̊ allsbaserat nyhetsrekommenationssystem sv
dc.type G2 Pro gradu, diplomityö en
dc.contributor.school Perustieteiden korkeakoulu fi
dc.subject.keyword recommender system en
dc.subject.keyword content-based en
dc.subject.keyword cross entropy en
dc.subject.keyword perplexity en
dc.subject.keyword diversity en
dc.subject.keyword news en
dc.identifier.urn URN:NBN:fi:aalto-201506303448
dc.programme.major Ohjelmistotekniikka fi
dc.programme.mcode T3001 fi
dc.type.ontasot Master's thesis en
dc.type.ontasot Diplomityö fi
dc.contributor.supervisor Saikkonen, Heikki
dc.programme Tietotekniikan koulutusohjelma fi
dc.ethesisid Aalto 2884
dc.location P1


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

My Account