An alarm aggregation framework for critical IT Service monitoring at CERN
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2015-08-24
Department
Major/Subject
Security and Mobile Computing
Mcode
T3011
Degree programme
Master's Degree Programme in Security and Mobile Computing (NordSecMob)
Language
en
Pages
71+8
Series
Abstract
The emergence of cloud computing has transformed the architecture of Information Technology (IT) services during the last decade. In consequence, monitoring solutions are actively adapted and developed to support the management of the virtualized, scalable, and dynamic environments hosting services now. This thesis work was done as part of an internship at CERN, the European Organization for Nuclear Research, where users and staff rely on several IT services as a support for their daily work. For software development such services include issue tracking, software repository hosting and version control. Scientific computing relies on services such as batch processing or volunteer computing portals. All of these services run on a common cloud infrastructure with a common monitoring system in place. This thesis presents the development of a monitoring framework that was created to improve the detection of service degradation and to reduce the amount of noise that a service responsible is exposed to, as they maintain a service, which is equipped with a monitoring system that creates and sends a large amount of alerts. Two of the main challenges were to take appropriate advantage of generic and existing monitoring components in the planning and implementation phases, and to follow the ongoing development of the monitoring and cloud management tools at CERN. Two different use cases are considered: a large service where negligible alarms occur, and a small service where single alarms are important. The conclusion from testing the framework prototype on real data in a large service, as well as an interview with two service responsibles, indicates that the filtering capability provided by this framework can be an influential tool for efficient fault detection and correction in real-world scenarios. In addition to these cases, the thesis describes the existing infrastructure, large-scale monitoring in general, as well as recommendations for future work and extensions for the CERN IT monitoring infrastructure.Den ökade uppkomsten av molntjänster under det senaste decenniet har lett till förändringar inom informationstekniska tjänstearkitekturer. Som en följd av detta håller man även på att omskapa de existerande lösningarna för tjänsteövervakning (monitorering) samt vidareutveckla dessa, i avsikt att underlätta driften av sådana virtualiserade, skalerbara samt dynamiska miljöer. Detta diplomarbete är utfört som en del av författarens tid som praktikant vid CERN, den Europeiska organisationen för kärnforskning, där användare och personal förlitar sig på en mångfald av IT-tjänster som ett stöd för sitt dagliga arbete. Alla dessa tjänster körs på en gemensam molnplattform och övervakas av en gemensam programvara. Detta diplomarbete presenterar utvecklandet av ett monitoreringsramverk som skapades för att göra det lättare att upptäcka försämrad tjänstekvalitet. Ett annat nämnvärt syfte var att minska informationsflödet från det existerande alarmeringssystemet. Många tjänsteansvariga utsätts nu för en flod av alarm då något allvarligt sker i en servergrupp, då de istället kunde notifieras en gång. Två av de största utmaningarna med arbetet var att tillgodogöra sig existerande monitorerings- och förvaltningsverktyg som finns i bruk vid CERN, samt följa med utvecklingen av dessa verktyg. Två separata användningsfall beaktas: en stor tjänst där oväsentliga alarm förekommer, samt en mindre tjänst där varje enskilt alarm är viktigt. Slutsatserna från att ha experimenterat med prototypen av ramverket på äkta data i en stor tjänst, samt en intervju med två serviceansvariga, tyder på att ramverkets förmåga att verka som ett informationsfilter kan vara ett betydelsefullt verktyg för att effektivt uppdaga och korrigera fel. I tillägg presenterar arbetet den existerande infrastrukturen, storskalig monitorering i allmänhet, samt rekommendationer för framtida arbete och vidareutveckling av infrastrukturen för monitorering vid CERN.Description
Supervisor
Heljanko, KeijoThesis advisor
Gonzalez Alvarez, AlvaroKeywords
alarm aggregation, monitoring, alerting, CERN, cloud computing