Stock markets have been a point of interest for researchers for a long time. The information in the stock market does not only represent the current state of economy but it also reflects other phenomenons that affect the prices of the stocks. This is why there are constantly new studies so that we could understand both global economy and these phenomenons better.
The size of the data that the stock market alone produces in a year is in the scale of terabytes. In order to analyze this data, tools that can handle this much infomation are necessary. Unfortunately, the information about these tools in the context of stock data is scattered, somewhat outdated and hard to find, which can drive away potential valuable innovations. The goal of this thesis is to provide information that can make this analysis more accessible to novice data analysist.
This thesis performs a literary research on what is the current state of stock data analysis in big data environment focusing on historical data analysis pipelines and based on this proposes a method that could help novice data scientists to build their own pipeline. Our study finds that using this method, the resulting pipeline can be built cost-efficiently while keeping the pipeline sustainable and easy to reproduce. However, the price of this is that the pipeline still runs on singular hardware without promises of scaling with the data. The sample size of our study is also small to make more viable claims, because of time constraints and more research would be needed on the subject.
Maailman talous pyörii osakemarkkinoiden ympärillä. Informaatio, jota osakemarkkina tarjoaa ei pelkästään kerro talouden nykytilasta vaan se myös heijastaa kaikkia osakemarkkinoihin vaikuttavia ilmiöitä. Tämän takia uusia tutkimuksia tehdään jatkuvasti, jotta sekä taloutta että näitä ilmiöitä voitaisiin ymmärtää paremmin.
Osakemarkkinoiden tuottaman datan määrä vuodessa on teratavujen mittaluokassa. Jotta tätä dataa voitaisiin siis tutkia, tarvitaan työkaluja jotka pystyvät toimimaan tämän mittaluokan kanssa. Valitettavasti informaatio näistä työkaluista osake datan kontekstissa on hajanaista, jossain määrin vanhentunutta ja vaikeasti löydettävissä, mikä jossain tapauksissa estää mahdollisesti tärkeän analysiin tekemisen. Tämän diplomityön tarkoituksena on tarjota tietoa ja työkaluja, jotta tämän tyyppinen tutkimus olisi mahdollisimman helppopääsyistä aloitteleville tutkijoille, jotka eivät ole tämän alan ammattilaisia.
Tässä diplomityössä suoritamme kirjallisuuskatsauksen tämän hetken osake datan tutkimukseen big data ympäristössä. Keskitymme historialista dataa käsitteleviin järjestelmiin ja ehdotamme menetelmää, jota alottelevat tutkijat voivat hyödyntää aloittaessaan rakentamaan omia järjestelmiään. Huomaamme, että tällä menetelmällä on mahdollista toteuttaa, ilman suuria kuluja, kestävä ja helposti toistettava järjestelmä osakedatan analysointiin, mutta tämän haittapuolena on, että järjestelmä ajetaan vielä yhden fyysisen koneen päällä antamatta mitään lupauksia skaalautuvuudesta. Tutkimuksemme otos on myös valitettavan pieni, jotta kunnon johtopäätöksiä voitaisiin vetää, johtuen työlle annetuista rajoitteista ja tämän takia tarvitsisikin enemmän tutkimusta aiheesta.