Exploring the Potential of Reinforcement Learning for Maintenance Optimization in Flow Line Production Systems

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Electrical Engineering | Master's thesis

Department

Major/Subject

Mcode

Language

en

Pages

60

Series

Abstract

Predictive maintenance is essential for reducing costs and enhancing efficiency in manufacturing, yet determining optimal maintenance timing is challenging due to the complex and dynamic nature of production systems. This thesis explores the application of reinforcement learning (RL) to optimize maintenance scheduling in flow line production systems, aiming to minimize costs while maximizing equipment reliability and production output. The maintenance optimization problem is formulated as a Markov Decision Process (MDP), and a discrete-event simulation is used to model the stochastic behavior of manufacturing processes. A Deep Q-Network (DQN) agent is trained to learn an optimal maintenance policy based on machine states. Experiments were conducted for both single-machine and multi-machine (five-machine serial line) setups. Results indicate that the DQN agent can develop effective maintenance strategies, with observed improvements in episode returns and production throughput during training. However, the agent’s learning performance was sensitive to hyperparameter configurations. Optimal results were achieved with moderate neural network complexity, extended training durations, and well-tuned batch sizes. The study demonstrates the potential of RL to enhance maintenance decision-making in complex manufacturing environments. It also highlights the importance of careful model architecture and training design. The proposed approach shows promise for improving real-world maintenance scheduling, potentially reducing operational costs and system downtime. Future research should focus on refining RL algorithms, validating them with real manufacturing data, and scaling the approach for broader industrial applications.

Prediktivt underhåll är avgörande för att minska kostnader och förbättra effektiviteten inom tillverkningsindustrin, men att optimera tidpunkten för underhåll är utmanande på grund av produktionssystemens komplexa och dynamiska natur. Denna avhandling undersöker tillämpningen av förstärkningsinlärning (RL) för att optimera underhållsscheman i produktionssystem med flödeslinjer, med syfte att minimera kostnader samtidigt som utrustningens tillförlitlighet och produktionskapacitet maximeras. Problemet med underhållsoptimering modelleras som en Markov-beslutsprocess (MDP), och en diskret händelsesimulering används för att återskapa tillverkningsprocessernas stokastiska beteende. En Deep Q-Network (DQN)-agent tränas för att lära sig en optimal underhållspolicy baserad på maskinernas tillstånd. Experiment genomfördes för både enmaskins- och flermaskinskonfigurationer (en serielinje med fem maskiner). Resultaten visar att DQN-agenten kan utveckla effektiva underhållsstrategier, med förbättringar i episodavkastning och produktionsgenomströmning under träningen. Inlärningens stabilitet och hastighet var dock känslig för hyperparameterinställningarna. Den bästa prestandan uppnåddes med måttlig nätverkskomplexitet, längre träningstid och noggrant justerade batchstorlekar. Studien belyser potentialen hos RL för att optimera komplexa tillverkningssystem, men också vikten av noggrann modellutformning och träningsstrategi. Metoden har potential att leda till effektivare underhållsplanering i verkliga industrimiljöer, med minskade kostnader och kortare stilleståndstid som resultat. Framtida arbete bör fokusera på att ytterligare förfina RL-modellerna, testa dem på verkliga data och förbättra metodens skalbarhet för bredare industriell tillämpning.

Description

Supervisor

Zhou, Quan

Thesis advisor

Botzheim, János
Nagy, Balázs

Other note

Citation