An alarm aggregation framework for critical IT Service monitoring at CERN

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.advisor Gonzalez Alvarez, Alvaro
dc.contributor.author Lindqvist, Carolina
dc.date.accessioned 2015-12-16T07:32:52Z
dc.date.available 2015-12-16T07:32:52Z
dc.date.issued 2015-08-24
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/19039
dc.description.abstract The emergence of cloud computing has transformed the architecture of Information Technology (IT) services during the last decade. In consequence, monitoring solutions are actively adapted and developed to support the management of the virtualized, scalable, and dynamic environments hosting services now. This thesis work was done as part of an internship at CERN, the European Organization for Nuclear Research, where users and staff rely on several IT services as a support for their daily work. For software development such services include issue tracking, software repository hosting and version control. Scientific computing relies on services such as batch processing or volunteer computing portals. All of these services run on a common cloud infrastructure with a common monitoring system in place. This thesis presents the development of a monitoring framework that was created to improve the detection of service degradation and to reduce the amount of noise that a service responsible is exposed to, as they maintain a service, which is equipped with a monitoring system that creates and sends a large amount of alerts. Two of the main challenges were to take appropriate advantage of generic and existing monitoring components in the planning and implementation phases, and to follow the ongoing development of the monitoring and cloud management tools at CERN. Two different use cases are considered: a large service where negligible alarms occur, and a small service where single alarms are important. The conclusion from testing the framework prototype on real data in a large service, as well as an interview with two service responsibles, indicates that the filtering capability provided by this framework can be an influential tool for efficient fault detection and correction in real-world scenarios. In addition to these cases, the thesis describes the existing infrastructure, large-scale monitoring in general, as well as recommendations for future work and extensions for the CERN IT monitoring infrastructure. en
dc.description.abstract Den ökade uppkomsten av molntjänster under det senaste decenniet har lett till förändringar inom informationstekniska tjänstearkitekturer. Som en följd av detta håller man även på att omskapa de existerande lösningarna för tjänsteövervakning (monitorering) samt vidareutveckla dessa, i avsikt att underlätta driften av sådana virtualiserade, skalerbara samt dynamiska miljöer. Detta diplomarbete är utfört som en del av författarens tid som praktikant vid CERN, den Europeiska organisationen för kärnforskning, där användare och personal förlitar sig på en mångfald av IT-tjänster som ett stöd för sitt dagliga arbete. Alla dessa tjänster körs på en gemensam molnplattform och övervakas av en gemensam programvara. Detta diplomarbete presenterar utvecklandet av ett monitoreringsramverk som skapades för att göra det lättare att upptäcka försämrad tjänstekvalitet. Ett annat nämnvärt syfte var att minska informationsflödet från det existerande alarmeringssystemet. Många tjänsteansvariga utsätts nu för en flod av alarm då något allvarligt sker i en servergrupp, då de istället kunde notifieras en gång. Två av de största utmaningarna med arbetet var att tillgodogöra sig existerande monitorerings- och förvaltningsverktyg som finns i bruk vid CERN, samt följa med utvecklingen av dessa verktyg. Två separata användningsfall beaktas: en stor tjänst där oväsentliga alarm förekommer, samt en mindre tjänst där varje enskilt alarm är viktigt. Slutsatserna från att ha experimenterat med prototypen av ramverket på äkta data i en stor tjänst, samt en intervju med två serviceansvariga, tyder på att ramverkets förmåga att verka som ett informationsfilter kan vara ett betydelsefullt verktyg för att effektivt uppdaga och korrigera fel. I tillägg presenterar arbetet den existerande infrastrukturen, storskalig monitorering i allmänhet, samt rekommendationer för framtida arbete och vidareutveckling av infrastrukturen för monitorering vid CERN. sv
dc.format.extent 71+8
dc.format.mimetype application/pdf en
dc.language.iso en en
dc.title An alarm aggregation framework for critical IT Service monitoring at CERN en
dc.title Ett alarmaggregeringsramverk för kritisk IT-tjänstemonitorering vid CERN sv
dc.type G2 Pro gradu, diplomityö en
dc.contributor.school Perustieteiden korkeakoulu fi
dc.subject.keyword alarm aggregation en
dc.subject.keyword monitoring en
dc.subject.keyword alerting en
dc.subject.keyword CERN en
dc.subject.keyword cloud computing en
dc.identifier.urn URN:NBN:fi:aalto-201512165557
dc.programme.major Security and Mobile Computing en
dc.programme.mcode T3011 fi
dc.type.ontasot Master's thesis en
dc.type.ontasot Diplomityö fi
dc.contributor.supervisor Heljanko, Keijo
dc.programme Master's Degree Programme in Security and Mobile Computing (NordSecMob) en


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse