Distributed data processing for fourth-generation smart factories
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2023-10-09
Department
Major/Subject
Computer Science
Mcode
SCI3042
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
69
Series
Abstract
The manufacturing industry has gone through three distinct revolutions that improved productivity and reduced human involvement through different forms of mechanization. Today, with the proliferation of Internet of Things, modern smart factories are entering the fourth industrial revolution by drastically increasing the degree of automation and monitoring. By means of Machine Learning and Artificial Intelligence, companies can optimize manufacturing procedures on a microscopic scale which minimizes material waste and improves the quality of wares. However, due to the sheer magnitude of data processing that this level of automation requires, the previous eras infrastructure is unable to withstand the resulting computational pressure. In this thesis, we use local machines to construct a distributed data processing cluster that is capable of catering to the Big Data scale demands of fourth generation smart factories. This system, which consists of three decoupled, but coordinating cluster components, is built in the image of a real industrial use case using an Apache-based technology stack. To evaluate the constructed system, we perform a multitude of comparative experiments and analyze the results on three dimensions, namely scalability, reliability and maintainability. For a holistic system overview, the analytical process considers four distinct hardware metrics: CPU, heap memory, network bandwidth and disk IO. From the results, we could empirically prove the linear scaling nature of Apache Kafka, Flink and Cassandra, as well as quantify the hardware cost of reliability by means of data replication. Additionally, through progressive overloading during experiments, we were able to show how and when the aforementioned technologies eventually start to malfunction. The analytical evaluation of the experiments also implicitly demonstrated the system's high degree of maintainability. Finally, the interwoven system experiments illustrated the deceptive complexity behind near real-time data processing and pipeline topologies.Tillverkningsindustrin har genomgått tre betydelsefulla revolutioner som har samtidigt ökat produktivitetsnivån och minskat människans direkta inblandning i processen genom olika former av mekanisering. I samband med sakernas internet övergår moderna smarta fabriker nu emot den fjärde revolutionen där automation och autonom övervakning delegeras exponentiellt mer ansvar. Med hjälp av maskininlärning och artificiell intelligens kan företag optimera tillverkningsprocesserna på en mikroskopisk skala, vilket minimerar materialavfall och förbättrar produktkvaliteten. Lösningen är dock långt från trivial, för att mängden databehandling som krävs av nya automationsnivån överskrider drastiskt den gamla infrastrukturens presetationsförmåga. I denna avhandling tillämpar vi lokala maskiner för att konstruera ett distribuerat databehandlingskluster som kan uppnå moderna smarta fabrikers höga prestationskrav. Detta system, som består av tre samarbetande klusterkomponenter, är byggt utifrån ett verkligt industriellt användningsfall med en Apache-baserad teknikstack. För att utvärdera det konstruerade systemet utför vi en mängd jämförbara experiment och analyserar resultaten från tre dimensioner, nämligen skalbarhet, tillförlitlighet och underhållsmässighet. För en holistisk systemöversikt tar analysprocessen hänsyn till fyra olika hårdvarumått: CPU, heapminne, nätverksförbruk och hårddisk IO. Utifrån resultaten kunde vi empiriskt bevisa den linjära skalbarheten av Apache Kafka, Flink och Cassandra, samt kvantifiera hårdvarukostnaden för tillförlitlighet. Genom gradvis överbelastning kunde vi dessutom presentera hur och när de ovan nämnda komponenters prestationsförmåga försämras. Den analytiska utvärderingen av experimenten bevisade också implicit systemets höga grad av underhållsmässighet. Slutligen illustrerade de sammanvävda systemexperimenten den bedrägliga komplexiteten av olika pipeline-topologier samt databehandling som utförs i nära realtid.Description
Supervisor
Hirvisalo, VesaThesis advisor
Harjuhahto, JaakkoKeywords
big data, Internet of Things, smart factories, distributed systems, system architecture, data processing