Data processing pipeline automation on cloud platform

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Sähkötekniikan korkeakoulu | Master's thesis

Date

2019-03-11

Department

Major/Subject

Biosensing and Bioelectronics

Mcode

ELEC3045

Degree programme

LST - Master's Programme in Life Science Technologies (TS2013)

Language

en

Pages

36

Series

Abstract

A network connection provides us with a global access to a seemingly endless information storage. However, the ways of utilizing the Internet are changing. An increasing amount of functionality is being added to browsers, applications that are run on personal devices to transfer and interpret the online data. Applications that were previously run independently on personal machines are transformed into web applications, and the processing load is distributed away from individual computers. This development has increased competition in the web hosting industry. While the leading multinational technology companies have established large datacenters around the world to inexpensive locations, it has become profitable for smaller companies to outsource their hosting services. As datacenter technology has evolved, the enormous stocks of machines from which the large companies rent out their computing services has been started to be called the cloud. The transition to cloud services provides increased reliability, power, scalability, and cost-effectiveness for software businesses. This thesis describes the process of transferring a public transportation journey planner service from company's own datacenter to a cloud platform. The consequential changes in different abstraction levels of the software architecture are documented, and the methods that were used in planning and executing the transfer are evaluated. A container virtualization method was combined with Amazon's container platform service and it increased the software reliability with automatic health monitoring and scaling. These new features of the system were verified by load tests, and their results show that the cloud platform is able to restore the normal response times of the service in five minutes after the number of users has grown drastically, by provisioning more resources for the routing algorithm.

Verkkoyhteys tarjoaa meille globaalin pääsyn näennäisesti loputtomaan tietomäärään. Tavat hyödyntää Internetiä ovat kuitenkin muuttumasssa. Selaimiin, verkossa olevaa dataa hakeviin ja tulkitseviin ohjelmiin lisätään jatkuvasti uusia toiminnallisuuksia. Aikaisemmin henkilökohtaisilla laitteilla ajettuja sovelluksia muutetaan verkkopohjaisiksi ja samalla henkilökohtaisten laitteiden laskentakuormaa siirtyy palvelimille. Tämä kehitys on lisännyt kilpailua verkkoisännöintipalveluissa. Kun johtavat teknologiayritykset ovat rakentaneet suuria palvelinkeskuksia edullisiin sijainteihin, on isännöintipalvelujen ulkoistaminen muuttunut kannattavaksi pienemmille yrityksille. Kun palvelinkeskusteknologia on kehittynyt, on suuresta palvelinmäärästä vuokrattavia laskentapalveluja alettu kutsua pilveksi. Pilvilaskentaan siirtyminen tuo ohjelmistoalan liiketoimintaan luotettavuutta, tehoa, skaalattavuutta ja kustannustehokkuutta. Tässä diplomityössä kuvataan julkisen liikenteen reittiopas-palvelun siirtäminen yrityksen omasta palvelinsalista pilvialustalle. Työssä dokumentoidaan siirtoprosessista seuranneet muutokset ohjelmiston arkkitehtuurin eri abstraktiotasoilla, ja arvioidaan menetelmät siirron suunnittelussa ja toteutuksessa. Siirrossa yhdistettiin konttivirtualisointi ja Amazonin konttialustapalvelu, mikä paransi ohjelmiston luotettavuutta automaattisella valvonnalla ja skaalauksella. Järjestelmän uudet ominaisuudet verifioitiin kuormatesteillä, joiden tulosten mukaan alustalla on kyky kasvattaa automaattisesti reititysmoottorin laskentaresursseja ja palauttaa palvelun vasteaika normaaliksi noin viidessä minuutissa käyttäjämäärän äkillisestä kasvusta.

Description

Supervisor

Särkkä, Simo

Thesis advisor

Vuorio, Mika

Keywords

cloud computing, container virtualization, infrastructure as a service, data processing, automatic scaling, site reliability engineering

Other note

Citation