Graph-based anomaly detection: Evaluating Logs2Graphs with non-benchmark logs

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Electrical Engineering | Master's thesis

Department

Mcode

Language

en

Pages

54

Series

Abstract

Many log-based anomaly detection methods are evaluated on becnhmark datasets such as HDFS, Hadoop, and supercomputing logs (BGL, Spirit, Thunderbird). While widely used, these datasets are often overly simplistic, enabling high detection rates without advanced anomaly detection methods. Logs2Graphs, a graph-based anomaly detection method introduced by Li et al. (2024), converts logs into attributed, directed, and edge-weighted graphs and applies graph neural networks for detection. While effective on benchmarks, its real-world performance remains untested. This thesis evalutes Logs2Graphs on TeleData, log data from the telecommunications industry representing real operational scenarios. The study examines overall detection accuracy, the effects of preprocessing, edge direction, robustness, and hyperparameters, as well as identifying log events most contributing to anomalies. Results show that Logs2Graphs effectively detects anomalies in TeleData, achieving an ROC AUC and Average Precision above 0.94. Directed edges improve performance, while contaminating training data with anomalous graphs reduces detection accuracy. Preprocessing techniques like stop-word removal and compound-word splitting degrade performance. Hyperparameter analysis highlights the importance of the proximity parameter, the mean function as the best readout function, and an optimal embedding dimension of 100-200. Analysis of log event importance suggests that deviations in event frequency and unseen events are key anomaly indicators, though common default log messages provide limited explainability. In conclusion, this thesis demonstrates that Logs2Graphs is a promising approach for log-based anomaly detection, successfully identifying anomalies in TeleData despite its differences from benchmark datasets. Future research should focus on evaluating Logs2Graphs on diverse datasets, studying how anomalies manifest in log data to validate its explanations, and improving its robustness.

Monet lokipohjaiset anomaliantunnistusmenetelmät arvioidaan yksinkertaisilla vertailuaineistoilla, kuten HDFS-, Hadoop- ja supertietokoneiden lokit (BGL, Spirit, Thunderbird), mikä mahdollistaa korkeat tunnistusasteet ilman kehittyneitä menetelmiä. Logs2Graphs, Li et al.:n (2024) esittelemä graafipohjainen menetelmä, muuntaa lokit suunnatuiksi, painotetuiksi graafeiksi ja hyödyntää graafineuroverkkoja anomaliantunnistuksessa. Sen suorituskykyä todellisissa ympäristöissä ei ole aiemmin tutkittu. Tämä tutkielma arvioi Logs2Graphsin toimivuutta TeleDatalla, televiestintäteollisuuden lokiaineistolla, ja analysoi tunnistustarkkuutta, esikäsittelyä, graafin rakennetta ja hyperparametreja sekä anomalioita merkittävimmin aiheuttavia lokitapahtumia. Tulokset osoittavat, että Logs2Graphs tunnistaa tehokkaasti anomalioita TeleDatassa, saavuttaen ROC AUC:n ja keskimääräisen tarkkuuden yli 0,94. Suunnatut reunat parantavat suorituskykyä, kun taas esikäsittelytekniikat ja anomaalisten graafien lisääminen opetusdataan heikentävät sitä. Hyperparametrianalyysi korostaa proximity parametria, keskiarvofunktiota sekä optimaalisena readout funktiona, ja embedding ulottuvuutta 100–200. Lokitapahtuma-analyysi osoittaa, että poikkeamat tapahtumatiheydessä ja uudet tapahtumat ovat keskeisiä anomaliamerkkejä. Tutkielma osoittaa, että Logs2Graphs on lupaava menetelmä lokipohjaiseen anomaliantunnistukseen ja toimii tehokkaasti todellisessa lokiaineistossa. Jatkossa menetelmää tulisi arvioida laajemmin ja kehittää sen selitettävyyttä ja robustisuutta.

Description

Supervisor

Jung, Alex

Thesis advisor

Khan, Wasiq

Other note

Citation