An alarm aggregation framework for critical IT Service monitoring at CERN

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorGonzalez Alvarez, Alvaro
dc.contributor.authorLindqvist, Carolina
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.supervisorHeljanko, Keijo
dc.date.accessioned2015-12-16T07:32:52Z
dc.date.available2015-12-16T07:32:52Z
dc.date.issued2015-08-24
dc.description.abstractThe emergence of cloud computing has transformed the architecture of Information Technology (IT) services during the last decade. In consequence, monitoring solutions are actively adapted and developed to support the management of the virtualized, scalable, and dynamic environments hosting services now. This thesis work was done as part of an internship at CERN, the European Organization for Nuclear Research, where users and staff rely on several IT services as a support for their daily work. For software development such services include issue tracking, software repository hosting and version control. Scientific computing relies on services such as batch processing or volunteer computing portals. All of these services run on a common cloud infrastructure with a common monitoring system in place. This thesis presents the development of a monitoring framework that was created to improve the detection of service degradation and to reduce the amount of noise that a service responsible is exposed to, as they maintain a service, which is equipped with a monitoring system that creates and sends a large amount of alerts. Two of the main challenges were to take appropriate advantage of generic and existing monitoring components in the planning and implementation phases, and to follow the ongoing development of the monitoring and cloud management tools at CERN. Two different use cases are considered: a large service where negligible alarms occur, and a small service where single alarms are important. The conclusion from testing the framework prototype on real data in a large service, as well as an interview with two service responsibles, indicates that the filtering capability provided by this framework can be an influential tool for efficient fault detection and correction in real-world scenarios. In addition to these cases, the thesis describes the existing infrastructure, large-scale monitoring in general, as well as recommendations for future work and extensions for the CERN IT monitoring infrastructure.en
dc.description.abstractDen ökade uppkomsten av molntjänster under det senaste decenniet har lett till förändringar inom informationstekniska tjänstearkitekturer. Som en följd av detta håller man även på att omskapa de existerande lösningarna för tjänsteövervakning (monitorering) samt vidareutveckla dessa, i avsikt att underlätta driften av sådana virtualiserade, skalerbara samt dynamiska miljöer. Detta diplomarbete är utfört som en del av författarens tid som praktikant vid CERN, den Europeiska organisationen för kärnforskning, där användare och personal förlitar sig på en mångfald av IT-tjänster som ett stöd för sitt dagliga arbete. Alla dessa tjänster körs på en gemensam molnplattform och övervakas av en gemensam programvara. Detta diplomarbete presenterar utvecklandet av ett monitoreringsramverk som skapades för att göra det lättare att upptäcka försämrad tjänstekvalitet. Ett annat nämnvärt syfte var att minska informationsflödet från det existerande alarmeringssystemet. Många tjänsteansvariga utsätts nu för en flod av alarm då något allvarligt sker i en servergrupp, då de istället kunde notifieras en gång. Två av de största utmaningarna med arbetet var att tillgodogöra sig existerande monitorerings- och förvaltningsverktyg som finns i bruk vid CERN, samt följa med utvecklingen av dessa verktyg. Två separata användningsfall beaktas: en stor tjänst där oväsentliga alarm förekommer, samt en mindre tjänst där varje enskilt alarm är viktigt. Slutsatserna från att ha experimenterat med prototypen av ramverket på äkta data i en stor tjänst, samt en intervju med två serviceansvariga, tyder på att ramverkets förmåga att verka som ett informationsfilter kan vara ett betydelsefullt verktyg för att effektivt uppdaga och korrigera fel. I tillägg presenterar arbetet den existerande infrastrukturen, storskalig monitorering i allmänhet, samt rekommendationer för framtida arbete och vidareutveckling av infrastrukturen för monitorering vid CERN.sv
dc.format.extent71+8
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/19039
dc.identifier.urnURN:NBN:fi:aalto-201512165557
dc.language.isoenen
dc.programmeMaster's Degree Programme in Security and Mobile Computing (NordSecMob)en
dc.programme.majorSecurity and Mobile Computingen
dc.programme.mcodeT3011fi
dc.rights.accesslevelopenAccess
dc.subject.keywordalarm aggregationen
dc.subject.keywordmonitoringen
dc.subject.keywordalertingen
dc.subject.keywordCERNen
dc.subject.keywordcloud computingen
dc.titleAn alarm aggregation framework for critical IT Service monitoring at CERNen
dc.titleEtt alarmaggregeringsramverk för kritisk IT-tjänstemonitorering vid CERNsv
dc.typeG2 Pro gradu, diplomityöen
dc.type.okmG2 Pro gradu, diplomityö
dc.type.ontasotMaster's thesisen
dc.type.ontasotDiplomityöfi
dc.type.publicationmasterThesis
local.aalto.idinssi52682
local.aalto.openaccessyes

Files

Original bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
master_Lindqvist_Carolina_2015.pdf
Size:
3.25 MB
Format:
Adobe Portable Document Format