Distributed data processing for fourth-generation smart factories

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2023-10-09

Department

Major/Subject

Computer Science

Mcode

SCI3042

Degree programme

Master’s Programme in Computer, Communication and Information Sciences

Language

en

Pages

69

Series

Abstract

The manufacturing industry has gone through three distinct revolutions that improved productivity and reduced human involvement through different forms of mechanization. Today, with the proliferation of Internet of Things, modern smart factories are entering the fourth industrial revolution by drastically increasing the degree of automation and monitoring. By means of Machine Learning and Artificial Intelligence, companies can optimize manufacturing procedures on a microscopic scale which minimizes material waste and improves the quality of wares. However, due to the sheer magnitude of data processing that this level of automation requires, the previous eras infrastructure is unable to withstand the resulting computational pressure. In this thesis, we use local machines to construct a distributed data processing cluster that is capable of catering to the Big Data scale demands of fourth generation smart factories. This system, which consists of three decoupled, but coordinating cluster components, is built in the image of a real industrial use case using an Apache-based technology stack. To evaluate the constructed system, we perform a multitude of comparative experiments and analyze the results on three dimensions, namely scalability, reliability and maintainability. For a holistic system overview, the analytical process considers four distinct hardware metrics: CPU, heap memory, network bandwidth and disk IO. From the results, we could empirically prove the linear scaling nature of Apache Kafka, Flink and Cassandra, as well as quantify the hardware cost of reliability by means of data replication. Additionally, through progressive overloading during experiments, we were able to show how and when the aforementioned technologies eventually start to malfunction. The analytical evaluation of the experiments also implicitly demonstrated the system's high degree of maintainability. Finally, the interwoven system experiments illustrated the deceptive complexity behind near real-time data processing and pipeline topologies.

Tillverkningsindustrin har genomgått tre betydelsefulla revolutioner som har samtidigt ökat produktivitetsnivån och minskat människans direkta inblandning i processen genom olika former av mekanisering. I samband med sakernas internet övergår moderna smarta fabriker nu emot den fjärde revolutionen där automation och autonom övervakning delegeras exponentiellt mer ansvar. Med hjälp av maskininlärning och artificiell intelligens kan företag optimera tillverkningsprocesserna på en mikroskopisk skala, vilket minimerar materialavfall och förbättrar produktkvaliteten. Lösningen är dock långt från trivial, för att mängden databehandling som krävs av nya automationsnivån överskrider drastiskt den gamla infrastrukturens presetationsförmåga. I denna avhandling tillämpar vi lokala maskiner för att konstruera ett distribuerat databehandlingskluster som kan uppnå moderna smarta fabrikers höga prestationskrav. Detta system, som består av tre samarbetande klusterkomponenter, är byggt utifrån ett verkligt industriellt användningsfall med en Apache-baserad teknikstack. För att utvärdera det konstruerade systemet utför vi en mängd jämförbara experiment och analyserar resultaten från tre dimensioner, nämligen skalbarhet, tillförlitlighet och underhållsmässighet. För en holistisk systemöversikt tar analysprocessen hänsyn till fyra olika hårdvarumått: CPU, heapminne, nätverksförbruk och hårddisk IO. Utifrån resultaten kunde vi empiriskt bevisa den linjära skalbarheten av Apache Kafka, Flink och Cassandra, samt kvantifiera hårdvarukostnaden för tillförlitlighet. Genom gradvis överbelastning kunde vi dessutom presentera hur och när de ovan nämnda komponenters prestationsförmåga försämras. Den analytiska utvärderingen av experimenten bevisade också implicit systemets höga grad av underhållsmässighet. Slutligen illustrerade de sammanvävda systemexperimenten den bedrägliga komplexiteten av olika pipeline-topologier samt databehandling som utförs i nära realtid.

Description

Supervisor

Hirvisalo, Vesa

Thesis advisor

Harjuhahto, Jaakko

Keywords

big data, Internet of Things, smart factories, distributed systems, system architecture, data processing

Other note

Citation