Cost Analysis of a Data Collection System for News Recommendation
No Thumbnail Available
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Authors
Date
2018-11-07
Department
Major/Subject
Computer Science
Mcode
SCI3042
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
52
Series
Abstract
With the increasing digitalization of business in general data is increasingly becoming more important for businesses. This shift also creates a completely new environment of global competition, pressuring businesses to find new ways to survive in the 21st century. Digitalization also provides previously unavailable opportunities to customize products or services on an individual level. News media in particular has faced a major shift, from local newspapers to a globally digital environment with competitors such as Google and Facebook. A key component for media companies to survive in this new environment is the utilization of data. Data collected from a digital news platform has two main purposes. Firstly, to provide insight into user behavior and the general performance of the platform. Secondly, it can be used to customize content both on a general level, as well as on a user level. In order to gain meaningful insights and to be able to take action, large quantities of data have to be collected and analyzed. Investing into hardware to be able to cope with the data required is both expensive and scales poorly. One solution is the utilization of cloud services to reduce initial investments required. Cloud services also allow for easier and cheaper scaling of operations. This thesis presents the outline of a data collection system, built using Amazon Web Services, analyzes the central services used and compares them to alternatives offered by Microsoft Azure and Google Cloud Services. The main focus is cost but available features are also explored to some extent. Some alternative possibilities for the central services are also explored within Amazon Web Services. The main findings of this thesis are that a direct comparison between cloud service providers is challenging due three main reasons. Firstly, the pricing models are vastly different, complicating comparison outside of a few selected scenarios. Secondly, the difference in available features or services can greatly affect implementation decisions. Thirdly, the performance of the different services plays a major factor in how cost effective they are. Based on the results of this thesis all three service providers remain viable alternatives for the implementation of a similar system.Med den ökande digitaliseringen av affärverksamheten blir data allt viktigt för företag. Detta skapar en helt ny miljö för global konkurrens, vilket tvingar företag att hitta nya sätt att driva sin verksamhet. Speciellt medieföretag har upplevt ett skifte, från lokala tidningar till en globalt digital miljö med konkurrenter som Google och Facebook. En nyckelfaktor för medieföretagnes överlevnad i den nya miljön är förmågan att utnyttja data, vilket kan ge insikt i användarbeteende och plattformens allmänna prestanda. Data kan också användas för att anpassa innehåll både på en allmän nivå och på individuell nivå. För att kunna dra meningsfulla slutsatser och för att kunna vidta åtgärder måste stora mängder data samlas in och analyseras. Dock är investeringar i hårdvara dyra för företag och möjliga ökningar eller minskningar av verksamheten är svåra att hantera. En lösning till detta problem är för företag att utnyttja molnbaserade datortjänster, både i syftet att minska nödvändiga investeringar och bättre kunna hantera varierande arbetsbelastning. Denna avhandling presenterar uppbyggnaden av ett datainsamlingssystem, skapat med hjälp av Amazon Web Services. Denna avhandling utvärderar utvärdera de centrala tjänsterna som använts för att skapa datainsamlingssystemet genom att jämföra tjänsterna med alternativen som erbjuds av Microsoft Azure och Google Cloud Services. Avhandlingen fokuserar i första hand på skillnader i kostnader av tjänsterna men utforskar också tillgängliga egenskaper. Dessutom utvärderas två alternativ för de centrala tjänsterna inom Amazon Web Services. Det viktigaste resultatet i denna avhandling är svårigheterna i själva kostnadsjämförelsen som uppstår på grund av tre huvudorsaker. För det första är prissättningsmodellerna väldigt olika, vilket försvårar en jämförelse utöver några få utvalda scenarier. För det andra kan skillnaden i tillgängliga egenskaper avsevärt inverka på implementationen av systemet. För det tredje spelar de olika tjänsternas prestanda en stor roll i hur kostnadseffektiva de är. Baserat på resultaten av denna avhandling är alla tre tjänsteleverantörer fortfarande fungerande alternativ för utvecklandet av ett motsvarande system.Description
Supervisor
Heljanko, KeijoThesis advisor
Ehnström, OskarKeywords
big data, cloud computing, serverless, cost analysis