aalto1 untyped-item.component.html
Anomaly detection of large-scale log data sets in a commercial Kubernetes cluster
Loading...
URL
Journal Title
Journal ISSN
Volume Title
School of Science |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
Department
Mcode
Language
en
Pages
44
Series
Abstract
Commercial Kubernetes cluster deployments can fail, generating substantial log data volumes that require automated analysis to identify failure causes effectively. This thesis investigates anomaly detection in large-scale Kubernetes deployment logs within commercial environments, focusing on current academic solutions and their practical applicability to proprietary Kubernetes log data. The study employs design science research methodology with three phases. First, a literature review utilizing recent survey literature identified current state-of-the-art approaches, eliminating the need for comprehensive literature review. Based on this review, LogBERT, a transformer-based deep learning model using semi-supervised learning, was selected for experimentation. Second, replication experiments validated LogBERT's performance against original reported results. Third, the model was adapted and applied to a commercial hub-spoke Kubernetes cluster architecture. LogBERT uses semi-supervised learning, training exclusively on successful deployment data while testing on data containing both normal and anomalous log sequences. Despite this approach, certain hyper-parameters still require labeled data for optimal tuning. The commercial environment presented significant challenges due to the absence of labeled data, preventing model validation and proper hyper-parameter optimization. Results demonstrate LogBERT's potential to extract anomalous sequences from large-scale datasets, showing academic methods can be applied to proprietary environments. However, the lack of labeled data creates limitations affecting both validation and hyper-parameter tuning. This highlights a critical gap between academic model development, which relies on labeled datasets even for semi-supervised approaches, and real-world commercial applications lacking such labels. The study concludes that while LogBERT shows promise for log anomaly detection from failed deployments, additional experiments are required to establish reliability in unlabeled environments. The research contributes to understanding practical deployment challenges and identifies the need for validation methodologies suitable for unlabeled scenarios.
Kaupallisen Kubernetes-klusterin käyttöönotto voi epäonnistua, tuottaen suuria määriä lokidataa, joka vaatii automatisoitua analysointia poikkeamien havaitsemiseksi. Tämä opinnäytetyö tutkii poikkeamien havaitsemista suurissa Kubernetes- lokitiedostoissa kaupallisessa ympäristössä, keskittyen nykyaikaisiin akateemisiin ratkaisuihin ja niiden käytännön sovellettavuuteen omistusoikeudelliseen Kubernetes-lokidataan. Tutkimus käyttää hyväksi Design Science -tutkimusmenetelmää, koostuen kolmesta vaiheesta. Ensin, akateeminen kirjallisuustutkimus aloitettiin, johtaen tuoreen katsaustutkimuksen löytämiseen. Katsaustutkimuksen kattavuuden vuoksi eliminoitiin tarve suorittaa perinpohjainen kirjallisuustutkimus itse. LogBERT-malli valittiin eksperimentointia varten katsaustutkimuksen perusteella. Toiseksi, replikaatiokoe suoritettiin mallin toimivuuden takaamiseksi. Kolmanneksi, mallia sovellettiin kaupalliseen Kubernetes-klusteriarkkitehtuuriin. LogBERT-mallin opetusvaihe suoritetaan vain onnistuneen käyttöönoton datalla, ja validointivaihe datalla, joka koostuu myös poikkeavuuksista. Tästä huolimatta tiettyjen hyper-parametrien hienosäätö vaatii luokiteltua dataa. Luokitellun datan puute tuotti vaikeuksia kyseisessä kaupallisessa ympäristössä, johtaen mallin puutteelliseen validointiin. Tulokset osoittavat LogBERT-mallin potentiaalista ekstraktoida poikkeamia lokidatasta, osoittaen akateemisien metodien kyvyn soveltua kaupallisiin ympäristöihin. Luokitellun datan puuttuminen kuitenkin rajoittaa tulosten validointia. Työssä korostuu ero akateemisten mallien ja käytännön sovellusten välillä, missä akateemisten mallien luokitellun datan käyttö ei kohtaa käytännön tarpeita, joissa usein luokiteltua dataa ei ole käytettävissä. Vaikka LogBERT-mallin poikkeamien havaitseminen epäonnistuneiden klusterikäyttöönottojen datasta näyttää lupaavalta, lisätutkimuksia tarvitaan luotettavuuden parantamiseksi luokittelemattomassa datassa. Tämä tutkimus tuo esille haasteista klusterien käyttöönottoympäristöissä ja painottaa oikeaoppisten validointimenetelmien tarpeesta luokittelemattomalle datalle.