Drift detection methods for data streams
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2023-05-16
Department
Major/Subject
Systems and Operations Research
Mcode
SCI3055
Degree programme
Master’s Programme in Mathematics and Operations Research
Language
en
Pages
48 + 6
Series
Abstract
The main objective of this thesis was to develop an improved anomaly detection method for detecting abrupt and gradual changes in sensor da-ta. The existing method was a user-defined threshold. Regression-based method was one of the tested methods. Regression lines were fitted separately to the last data points of each sensor, and a sensor was detected as anomalous if its regression line was significantly different from the others. Bayesian autoencoder was another method that was tested for drift detection. Autoencoder is an artificial neural network that learns a representation of the input data. Autoencoder model was trained using normal sensor data. Drift was detected if reconstruction loss increased suddenly because the reconstruction of the input data did not resemble the original input data. Statistical tests, such as paired sample t-test and Kullback-Leibler di-vergence, were also tested for drift detection. Neither of these methods had sufficient performance but including these statistical tests as an additional statistical test in the regression-based method improved robustness of the method. The best performing method was regression-based method with Kull-back-Leibler divergence. It worked well for gradual long-term drift detection which was not as efficient using the existing method. The developed method is robust, but reaction time could be improved. Two different window sizes were used for detecting fast and gradual drifts. Sliding window size affects reaction times and therefore, adding a method for calculating optimal window size based on the data could im-prove the performance.Työn tarkoituksena oli kehittää menetelmä poikkeamien tunnistamiseen aikasarjadatasta. Datassa esiintyvät muutokset olivat sekä nopeita että hitaita, joten kehitettävän menetelmän tuli pystyä tunnistamaan erilaisia muutoksia sensoridatasta. Yksi kehitetyistä menetelmistä oli regressiomenetelmä, jossa regressiosuorat sovitettiin erikseen jokaiselle sensorille. Sensori tunnistettiin poikkeavaksi, jos sen regressiosuora oli merkittävästi erilainen muiden sensorien regressiosuoriin verrattuna. Toinen kehitetyistä menetelmistä pohjautui Bayesilaiseen autoenkoodaajaan. Autoenkoodaaja muuttaa syötteen erilaiseen muotoon ja yrittää rekonstruoida tämän esityksen datasta. Autoenkoodaaja opetettiin käyttäen normaalia sensoridataa. Rekonstruktiovirhe kasvoi, jos autoenkoodaajalle syötettiin poikkeavaa dataa, sillä rekonstruktio poikkesi alkuperäisestä syötteestä. Työssä testattiin myös tilastollisia menetelmiä, kuten riippuvien parien t-testiä ja Kullback-Leibler divergenssiä poikkeamien tunnistamiseen. Kumpikaan näistä menetelmistä ei toiminut tarpeeksi luotettavasti, mutta nämä menetelmät toimivat hyvin osana regressiomenetelmää. Paras menetelmä oli Kullback-Leibler divergenssiä hyödyntävä regressiomenetelmä. Kyseinen menetelmä pystyi tunnistamaan hitaampia muutoksia tehokkaasti, johon olemassa oleva menetelmä ei soveltunut yhtä hyvin. Menetelmän tarkkuus oli melko hyvä, mutta reaktioaikaa voisi vielä parantaa tulevaisuudessa. Nopeiden ja hitaampien muutoksien tunnistamiseen käytettiin kahta eri ikkunan kokoa. Automaattinen ikkunan koon määrittäminen voisi kehittää menetelmää, sillä ikkunan koko vaikuttaa merkittävästi reaktioaikaan.Description
Supervisor
Hyvönen, NuuttiThesis advisor
Keisala, JukkaKeywords
drift detection, anomaly detection, regression, Bayesian autoencoder, statistical tests