Comparative Analysis of Cloud-Based Kafka Consumer Solution for Claims Data

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Department

Major/Subject

Mcode

SCI3042

Language

en

Pages

60

Series

Abstract

Claims data, central to the insurance and healthcare sectors, are often fragmented and dispersed across various systems in diverse formats, necessitating an ETL process to collect, transform, and store these data in desired structures for analysis. This research analyzed three primary AWS services -- AWS Lambda, Amazon ECS with Fargate, and AWS Glue -- as potential ETL solutions for real-time processing of claims data. The study evaluated the performance, cost, scalability, and usability of these AWS services, particularly in the context of small to moderate data streams. Additionally, their integrability with Kafka, especially Amazon MSK, was examined. In a controlled case study environment, each AWS service demonstrated the capability to process data within a latency window of a few seconds, aligning with the requirements of our research. Lambda, with its serverless architecture and direct event source support for MSK, is suitable for sporadic data processing but comes with complexities and configuration limitations. ECS with Fargate, while lacking native MSK support, provides benefits like detailed Kafka logs and granular control over Kafka client configurations once the client is successfully integrated. Glue's streaming ETL job leverages Apache Spark, which offers native Kafka integration and versatile transformation tools. However, Spark may present a learning curve for those unfamiliar with the framework or similar technologies. Regarding costs, Lambda's pricing model is cost-efficient for the tested data volume, especially within the AWS free tier. Both ECS with Fargate and Glue can be optimized in terms of cost when leveraging scheduling, but Glue's ETL job, being based on Spark, is notably more expensive. Selecting Glue for continuous data processing should therefore be based on specific needs, such as handling large data sets with complex calculations. Selecting an ETL service necessitates a thorough planning process, factoring in technical, operational, and financial dimensions. While the research provided valuable insights, it also acknowledged certain limitations, such as the controlled environment of the case study and areas like security receiving limited attention. These areas, in addition to different storage solutions and configurations not examined in this work, could be explored in future research.

Vakuutus- ja terveydenhuoltoalojen korvauksiin liittyvä data on usein hajallaan eri järjestelmissä ja formaateissa, vaatien ETL-prosessin datan käsittely- ja analysointitarpeisiin. Tässä tutkimuksessa tarkasteltiin AWS Lambdaa, Amazon ECS Fargatea ja AWS Glueta ETL-ratkaisuina korvausdatan reaaliaikaiseen käsittelyyn. Tutkimuksessa arvioitiin palveluiden suorituskykyä, kustannuksia, skaalautuvuutta ja käytettävyyttä, erityisesti pienten ja keskisuurten datavirtojen osalta. Työssä tarkasteltiin myös palveluiden integroitavuutta Kafkaan, erityisesti Amazon MSK:hon. Työn tutkimusympäristössä jokainen AWS-palvelu pystyi käsittelemään tietoja muutaman sekunnin viiveikkunassa, mikä vastaa tutkimuksen vaatimuksia. Lambda soveltuu serverless-arkkitehtuurillaan ja suoralla MSK-tuellaan erityisesti satunnaiseen datankäsittelyyn, mutta vain rajoitetuilla konfigurointimahdollisuuksilla. ECS Fargaten tapauksessa palvelusta puuttuu natiivi MSK-tuki, minkä vuoksi Kafka-yhteyden muodostaminen vaatii ohjelmoijalta ylimääräistä työtä. Toisaalta tämä suora yhteys tarjoaa hyödyllisiä Kafka-lokeja ja hienojakoisen hallinnan Kafka-asiakasasetuksille. Gluen tarjoama streaming ETL -ajotoiminto, joka hyödyntää Apache Sparkia, tarjoaa natiivin Kafka-integraation ja monipuolisia työkaluja datankäsittelyyn. Näiden ominaisuuksien hyödyntaminen voi kuitenkin olla haasteellista, jos Sparkin käyttö ei ole ennestään tuttua. Kustannusten osalta Lambdan hinnoittelumalli on kustannustehokas testatun datavolyymin tapauksessa, varsinkin jos AWS:n free tier -ohjelma on sovellettavissa. Sekä ECS Fargaten että Gluen käyttöä voidaan kustannusoptimoida hyödyntämällä ajastettuja ajoja, mutta Sparkia hyödyntävä Glue on huomattavasti kalliimpi. Tämän vuoksi Gluen valinta jatkuviin datankäsittelytehtäviin tulisi perustua erityisiin tarpeisiin, kuten monimutkaisia laskentoja vaativien suurten datamäärien käsittelyyn. ETL-palvelun valinta edellyttää huolellista suunnittelua, jossa otetaan huomioon tekniset, operatiiviset ja taloudelliset ulottuvuudet. Vaikka tutkimuksessa löytyi arvokkaita näkökulmia, siinä myös tunnistettiin tiettyjä rajoituksia. Näitä rajoituksia olivat esimerkiksi tapaustutkimuksen kontrolloitu ympäristö sekä osa-alueet, kuten turvallisuus, joiden huomiointi jäi vähäiseksi. Näiden osa-alueiden sekä työssä tutkimatta jääneiden varastointiratkaisujen ja eri konfiguraatioiden vaikutusten tutkiminen voisivat olla hyviä jatkotutkimuksen kohteita.

Description

Supervisor

Siekkinen, Matti

Thesis advisor

Jokela, Justus

Other note

Citation