Development and Optimization of ETL Processes for Blockchain Data Analystics
Loading...
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Date
2023-08-21
Department
Major/Subject
Data Science
Mcode
SCI3115
Degree programme
Master's Programme in ICT Innovation
Language
en
Pages
52 + 13
Series
Abstract
The Cosmos blockchain ecosystem is a decentralized network of interconnected blockchains designed for interoperability and scalability. This thesis aims to optimize the data engineering process for blockchain data analytics in the Cosmos ecosystem, focusing specifically on Osmosis, a decentralized exchange built on the Cosmos network. The existing data ingestion and storage process utilized by Numia Data, a subsidiary of Binary Builders AG, presents challenges in filtering irrelevant information, processing large volumes of data, and developing complex queries. The primary objective of this thesis is to improve the data engineering process by generating more suitable data structures for efficient data analytics. The approach consists of three main steps. Firstly, a thorough analysis of the Cosmos and Osmosis messages will be conducted to identify the essential data fields needed for analytics. This analysis will involve examining the raw data generated by the blockchain and utilizing exploration tools and documentation. Secondly, based on the identified data fields, new data structures will be defined to store the information and facilitate efficient data analytics. These structures will be designed to align with the capabilities of Numia Data’s data warehouse in BigQuery. Lastly, pipelines will be developed to enable the creation of these new data structures and ensure the cost-effective and efficient ingestion of new data. The development of these pipelines will leverage Numia Data’s existing ETL tools, DBT and BigQuery. By following this approach, this thesis aims to streamline the data engineering process and enable the extraction of valuable insights from blockchain data in a more efficient and automated manner.Cosmos-lohkoketjujen ekosysteemi on toisiinsa liitettyjen lohkoketjujen hajautettu verkko, joka on suunniteltu yhteentoimivaksi ja skaalautuvaksi. Tämän opinnäytetyön tavoitteena on optimoida lohkoketjujen data-analytiikan tietosuunnitteluprosessi Cosmos-ekosysteemissä, ja siinä keskitytään erityisesti Osmosikseen, joka on Cosmos-verkkoon rakennettu hajautettu pörssi. Binary Builders AG:n tytäryhtiön Numia Datan hyödyntämä nykyinen datan sisäänotto- ja tallennusprosessi aiheuttaa haasteita epäolennaisen tiedon suodattamisessa, suurten tietomäärien käsittelyssä ja monimutkaisten kyselyjen kehittämisessä. Tämän opinnäytetyön ensisijaisena tavoitteena on parantaa datan suunnitteluprosessia tuottamalla tehokkaaseen data-analytiikkaan sopivampia tietorakenteita. Lähestymistapa koostuu kolmesta päävaiheesta. Lähestymistapa koostuu kolmesta päävaiheesta. Ensinnäkin Cosmos- ja Osmosis-viestit analysoidaan perusteellisesti, jotta voidaan tunnistaa analytiikan kannalta olennaiset tietokentät. Tähän analyysiin kuuluu lohkoketjun tuottaman raakadatan tutkiminen ja tutkimustyökalujen ja dokumentaation hyödyntäminen. Toiseksi määritettyjen tietokenttien perusteella määritellään uudet tietorakenteet tietojen tallentamiseksi ja tehokkaan data-analytiikan helpottamiseksi. Nämä rakenteet suunnitellaan vastaamaan Numia Datan BigQuery-tietovaraston ominaisuuksia. Toiseksi määritettyjen tietokenttien perusteella määritellään uudet tietorakenteet tietojen tallentamiseksi ja tehokkaan data-analytiikan helpottamiseksi. Nämä rakenteet suunnitellaan vastaamaan Numia Datan BigQuery-tietovaraston ominaisuuksia. Lopuksi kehitetään putkilinjoja, joiden avulla nämä uudet tietorakenteet voidaan luoda ja varmistaa uusien tietojen kustannustehokas ja tehokas syöttö. Näiden putkistojen kehittämisessä hyödynnetään Numia Datan nykyisiä ETL-työkaluja, DBT:tä ja BigQueryä. Tätä lähestymistapaa noudattamalla tämän opinnäytetyön tavoitteena on virtaviivaistaa tietosuunnitteluprosessia ja mahdollistaa arvokkaiden oivallusten poimiminen lohkoketjujen tiedoista tehokkaammin ja automaattisemmin.Description
Supervisor
Pollari-Malmi, KerttuThesis advisor
Áviles, RafaelKeywords
Blockchain, Data engineering, Data processing, View materialization, Data engineering