Clustering-Based Anomaly Detection for IoT Event Data
Loading...
URL
Journal Title
Journal ISSN
Volume Title
School of Science |
Master's thesis
Authors
Date
Department
Major/Subject
Mcode
Degree programme
Language
en
Pages
57
Series
Abstract
Despite advancements in the Internet of Things, ensuring the reliability and efficiency of industrial machines remains a significant challenge due to the complexity and volume of the data they generate. Detecting anomalies in Internet of Things data is crucial for identifying potential faults or irregularities early and minimizing downtime. This thesis investigates clustering-based anomaly detection techniques to identify anomalous behavior in Internet of Things machines, specifically port cranes, using unstructured and unlabeled textual event data along with crane running time signals. It also addresses the types of anomalies detectable in the data and examines the specific challenges posed by port crane event data for anomaly detection. The unstructured textual event data is first processed using GPT-4 for categorization. Principal Component Analysis is then applied for dimensionality reduction. Following this, five clustering models are applied: k-means, DP-means, HDBSCAN, Self-Organizing Maps, and Deep Embedded Clustering. A total of 13 cranes are identified as anomalous based on distance from cluster centroids, with five of these consistently identified by all models based on differences in their event rate, event ratio, and the coefficient of variation of event counts. Additionally, a separate cluster of six cranes is identified as anomalous in cluster analysis. The models are evaluated using three validation metrics: the silhouette coefficient, Davies-Bouldin index, and Calinski-Harabasz index. The study identifies several data quality challenges in port crane event data, including noise, non-unique crane identifiers, a lack of standardization in event implementation, and the difficulty of distinguishing operational issues from data quality problems due to the uniqueness of each crane’s event signals. These challenges highlight the complexities of applying anomaly detection in IoT systems and point to areas for improvement in data implementation processes. Ultimately, the findings suggest that clustering-based anomaly detection models hold promise for industrial Internet of Things applications, provided that data quality challenges of the event data are carefully considered.Huolimatta esineiden internetin (IoT) kehityksestä, teollisten koneiden, kuten satamanostureiden, luotettavuuden ja tehokkuuden varmistaminen on yhä merkittävä haaste, johtuen niiden tuottaman datan monimutkaisuudesta ja määrästä. Anomalioiden havaitseminen IoT:n tapahtumadatasta on keskeistä mahdollisten vikojen tai poikkeavuuksien varhaisessa tunnistamisessa ja käyttökatkosten minimoimisessa. Tämä diplomityö tarkastelee klusterointipohjaisia anomalioiden havaitsemistekniikoita IoT-laitteiden, erityisesti satamanostureiden, poikkeavan toiminnan tunnistamiseksi käyttäen strukturoimatonta ja luokittelemattomia tapahtumatekstiaineistoja sekä nostureiden käyttöaikasignaaleja. Lisäksi se käsittelee havaittavissa olevien anomalioiden tyyppejä sekä niitä erityisiä haasteita, joita satamanostureiden tapahtumadata aiheuttaa anomalioiden havaitsemiselle. Strukturoimaton tekstimuotoinen tapahtumadata kategorisoidaan ensin GPT-4 kielimallilla, jonka jälkeen datan dimensionaalisuutta käsitellään pääkomponenttianalyysin avulla. Tutkimuksessa sovelletaan viittä klusterointimallia: k-means, DP-means, HDBSCAN, Self-Organizing Maps ja Deep Embedded Clustering. Poikkevat nosturit tunnistetaan klusteroimalla tapahtumanopeuden, tapahtumasuhteiden ja tapahtumamäärien varianssikertoimen perusteella. Poikkeaviksi tunnistetuista 13 nosturista viisi todetaan poikkeaviksi kaikkien mallien osalta. Lisäksi kuuden nosturin eritynyt joukko tunnistetaan poikkeavaksi klusterianalyysin avulla. Mallien suorituskykyä arvioidaan silhouette-, Davies-Bouldin- ja Calinski-Harabasz-indekseillä. Tutkimuksessa tunnistetaan useita satamanostureiden tapahtumadataan liittyviä haasteita, kuten datan kohina, nostureiden tunnisteiden epäyksilöllisyys, standardoinnin puute tapahtumien toteutuksessa sekä operatiivisten ongelmien ja datan laadusta johtuvien ongelmien erottamisen vaikeus, johtuen nosturien tapahtumasignaalien ainutlaatuisuudesta. Nämä haasteet korostavat anomalioiden havaitsemisen monimutkaisuutta IoT-järjestelmissä ja osoittavat kehittämistarpeita datan toteutusprosesseissa. Tutkimuksen tulokset viittaavat siihen, että klusterointipohjaiset anomalioiden havaitsemismallit ovat potentiaalisia teollisiin IoT-sovelluksiin. Mallien tehokkuus riippuu kuitenkin vahvasti siitä, miten tapahtumadatan laatuhaasteisiin pystytään vastaamaan.Description
Supervisor
Solin, ArnoThesis advisor
Gört, HenriJozi, Aria