Buildings account for 40 \% of the global energy consumption. A considerable portion of building energy consumption stems from heating, cooling and ventilation, and so implementing smart, energy-efficient HVAC systems has the potential to significantly impact the course of climate change. In recent years, model-free reinforcement learning algorithms have been increasingly assessed for this purpose due to their ability to learn and adapt purely from experience. They have been shown to outperform classical controllers in terms of energy cost and consumption, as well as thermal comfort. However, their weakness lies in their relatively poor data efficiency, requiring long periods of training to reach acceptable policies, making them inapplicable to real-world controllers directly. Hence, common research goals are to improve the learning speed, as well as to improve their ability to generalize, in order to facilitate transfer learning to unseen building environments.
In this thesis, we take a federated learning approach to training the reinforcement learning controller of an HVAC system. A global control policy is learned by aggregating local policies trained on multiple data centers located in different climate zones. The goal of the policy is to simultaneously minimize the energy consumption and maximize the thermal comfort. The federated optimization strategy indirectly increases both the rate at which experience data is collected, and the variation in the data. We demonstrate through experimental evaluation that these effects lead to a faster learning speed, as well as greater generalization capabilities in the federated policy compared to any individually trained policy. Furthermore, the learning stability is significantly improved, with the learning process and performance of the federated policy being less sensitive to the choice of parameters and the inherent randomness of reinforcement learning. Federated learning is applied to two state-of-the-art deep reinforcement learning algorithms: Soft Actor-Critic and Twin Delayed Deep Deterministic Policy Gradient. Comparing their respective performance, we find federated Soft Actor-Critic to provide a more balanced trade-off between energy consumption and thermal comfort while having greater learning speed and stability.
Byggnader står för 40 \% av den globala energiförbrukningen. En betydande del av energiförbrukningen i byggnader härrör från uppvärmning, kylning och ventilation. Därmed har utvecklingen av smarta, energieffektiva VVS-system potential att avsevärt påverka klimatförändringens förlopp. Under de senaste åren har algoritmer för modellfri förstärkningsinlärning alltmer utvärderats för detta ändamål på grund av deras förmåga att lära och anpassa sig enbart utifrån erfarenhet. De har visat sig överträffa konventionella regulatorer vad gäller energikostnad och -förbrukning, samt termisk komfort. Deras svaghet ligger dock i att deras relativt dåliga dataeffektivitet leder till långa perioder av träning för att uppnå acceptabla regleringspolicyer, vilket gör dem otillämpbara i verkliga byggnader. Typiska forskningsmål är därmed att förbättra inlärningshastigheten, samt att förbättra deras förmåga att generalisera för att underlätta överföringen av inlärda modeller till nya byggnadsmiljöer.
I denna avhandling utnyttjar vi en federerad inlärningsmetod för att träna förstärkningsinlärda regulatorer av ett VVS-system. En global regleringspolicy tränas genom att aggregera lokala policyer, vilka har tränats på flera datacenter belägna i olika klimatzoner. Målet för policyn är att både minimera energiförbrukningen och maximera den termiska komforten. Den federerade optimeringsstrategin ökar indirekt både hastigheten med vilken erfarenhetsdata samlas in, samt variationen i datan. Vi påvisar genom experimentell utvärdering att dessa effekter leder till en snabbare inlärningshastighet, samt förbättrad generaliseringsförmåga i den federerade policyn jämfört med en individuellt tränad policy. Dessutom förbättras inlärningsstabiliteten avsevärt. Federerad inlärning tillämpas till två toppmoderna djupa förstärkningsinlärningsmetoder: Soft Actor-Critic och Twin Delayed Deep Deterministic Policy Gradient. Vid jämförelse av deras respektive prestanda finner vi att federerad Soft Actor-Critic erbjuder en mer balanserad kompromiss mellan energiförbrukning och termisk komfort. Dessutom demonstrerar den en snabbare, samt mer stabil inlärningsprocess.