Real-time predictions in Web services
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2017-02-13
Department
Major/Subject
Computer Science
Mcode
SCI3042
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
53 + 9
Series
Abstract
In this Master's Theses a real-time analytics pipeline is built to serve predictions to users based on the usage and the operational data of a Web service. The data of the service is analyzed and a predictive model is built using statistical learning methods. The pipeline is set up to serve the predictions real-time using components from Amazon Cloud Services. The aim is to show the user a prediction of how long will it take until she/he gets a verdict on her/his application from the service. As additional goals, the aim is to study the dataset and its possibilities and research the suitability of the Amazon Machine Learning service in real-time predictions in Web context. The features for the predictive model are selected by exploring the dataset and using the Amazon Machine Learning service to evaluate the features. The Amazon Machine Learning service is also used to build a predictive machine learning model. The real-time analytics pipeline is built using Amazon components and following the Lambda Architecture guidelines. The best model performed better than the baseline model, though only moderately. The data lacked some vital information for the prediction target such as information about the personnel. Implementing the pipeline with Amazon components was considered straightforward. The Lambda Architecture worked well for the problem. It was found out that the Amazon Machine Learning service is easy to use but its machine learning capabilities and user interface are limited. It was highlighted that it is essential to explore and learn the dataset before building or designing the pipeline, as the pipeline design depends heavily from the data and from the use case.Tässä diplomityössä on rakennettu reaaliaikainen analytiikkajärjestelmä, jolla näytetään ennustuksia käyttäjille eräässä verkkopalvelussa, perustuen verkkopalvelun käyttödataan ja operatiiviseen dataan. Verkkopalvelun dataa analysoidaan ja sen perusteella rakennetaan tilastollisiin menetelmiin pohjaava ennustava koneoppimismalli. Analytiikkajärjestelmä rakennetaan käyttäen komponentteja Amazonin pilvipalvelusta. Tarkoituksena on näyttää käyttäjälle ennustus siitä kauanko kestää, että hän saa vastauksen verkkopalveluun jättämäänsä hakemukseen. Tämän lisäksi tavoitteena on muodostaa ymmärrys verkkopalvelun datasta ja sen mahdollisuuksista, sekä tutkia soveltuuko Amazonin koneoppimispalvelu reaaliaikaisten ennustuksien näyttämiseen verkkoympäristössä. Ennustavan mallin ominaisuudet valittiin tarkastelemalla dataa ja evaluoimalla ominaisuudet Amazonin koneoppimispalvelun avulla. Amazonin koneoppimispalvelua käytettiin myös ennustavan koneoppimismallin rakentamiseen. Reaaliaikainen analytiikkajärjestelmä rakennettiin käyttäen komponentteja Amazonin pilvipalveluista ja seuraten Lambda-arkkitehtuurin suunnitteluperiaatteita. Paras rakennetuista koneoppimismalleista oli parempi kuin pohjamalli, joskaan ei mitenkään merkittävästi. Datasta puuttui joitain ennustettavan arvon kannalta tärkeitä tekijöitä kuten tietoa hakemuksia käsittelevästä henkilökunnasta. Analytiikkajärjestelmän rakentaminen Amazoniin osoittautui kuitenkin helpoksi. Amazonin koneoppimispalvelu todettiin helppokäyttöiseksi, vaikkakin se todettiin koneoppimisominaisuuksiltaan melko yksinkertaiseksi, sekä käyttöliittymän osalta rajoittuneeksi. Työssä korostetaan, että on tärkeää tutkia dataa ennen kuin rakentaa analytiikkajärjestelmän, sillä järjestelmän rakenne riippuu suuresti siitä, minkälaista data on ja mikä on sen sekä datan käyttötarkoitus.Description
Supervisor
Heljanko, KeijoThesis advisor
Lehtonen, TimoAhonen, Teppo E.
Keywords
machine learning, real-time analytics, statistical learning, cloud computing, lambda architecture