Drift detection methods for data streams

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorKeisala, Jukka
dc.contributor.authorHakkarainen, Riina
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.supervisorHyvönen, Nuutti
dc.date.accessioned2023-05-21T17:02:54Z
dc.date.available2023-05-21T17:02:54Z
dc.date.issued2023-05-16
dc.description.abstractThe main objective of this thesis was to develop an improved anomaly detection method for detecting abrupt and gradual changes in sensor data. The existing method was a user-defined threshold. Regression-based method was one of the tested methods. Regression lines were fitted separately to the last data points of each sensor, and a sensor was detected as anomalous if its regression line was significantly different from the others. Bayesian autoencoder was another method that was tested for drift detection. Autoencoder is an artificial neural network that learns a representation of the input data. Autoencoder model was trained using normal sensor data. Drift was detected if reconstruction loss increased suddenly because the reconstruction of the input data did not resemble the original input data. Statistical tests, such as paired sample t-test and Kullback-Leibler divergence, were also tested for drift detection. Neither of these methods had sufficient performance but including these statistical tests as an additional statistical test in the regression-based method improved robustness of the method. The best performing method was regression-based method with Kullback-Leibler divergence. It worked well for gradual long-term drift detection which was not as efficient using the existing method. The developed method is robust, but reaction time could be improved. Two different window sizes were used for detecting fast and gradual drifts. Sliding window size affects reaction times and therefore, adding a method for calculating optimal window size based on the data could improve the performance.en
dc.description.abstractTyön tarkoituksena oli kehittää menetelmä poikkeamien tunnistamiseen aikasarjadatasta. Datassa esiintyvät muutokset olivat sekä nopeita että hitaita, joten kehitettävän menetelmän tuli pystyä tunnistamaan erilaisia muutoksia sensoridatasta. Yksi kehitetyistä menetelmistä oli regressiomenetelmä, jossa regressiosuorat sovitettiin erikseen jokaiselle sensorille. Sensori tunnistettiin poikkeavaksi, jos sen regressiosuora oli merkittävästi erilainen muiden sensorien regressiosuoriin verrattuna. Toinen kehitetyistä menetelmistä pohjautui Bayesilaiseen autoenkoodaajaan. Autoenkoodaaja muuttaa syötteen erilaiseen muotoon ja yrittää rekonstruoida tämän esityksen datasta. Autoenkoodaaja opetettiin käyttäen normaalia sensoridataa. Rekonstruktiovirhe kasvoi, jos autoenkoodaajalle syötettiin poikkeavaa dataa, sillä rekonstruktio poikkesi alkuperäisestä syötteestä. Työssä testattiin myös tilastollisia menetelmiä, kuten riippuvien parien t-testiä ja Kullback-Leibler divergenssiä poikkeamien tunnistamiseen. Kumpikaan näistä menetelmistä ei toiminut tarpeeksi luotettavasti, mutta nämä menetelmät toimivat hyvin osana regressiomenetelmää. Paras menetelmä oli Kullback-Leibler divergenssiä hyödyntävä regressiomenetelmä. Kyseinen menetelmä pystyi tunnistamaan hitaampia muutoksia tehokkaasti, johon olemassa oleva menetelmä ei soveltunut yhtä hyvin. Menetelmän tarkkuus oli melko hyvä, mutta reaktioaikaa voisi vielä parantaa tulevaisuudessa. Nopeiden ja hitaampien muutoksien tunnistamiseen käytettiin kahta eri ikkunan kokoa. Automaattinen ikkunan koon määrittäminen voisi kehittää menetelmää, sillä ikkunan koko vaikuttaa merkittävästi reaktioaikaan.fi
dc.format.extent48 + 6
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/120924
dc.identifier.urnURN:NBN:fi:aalto-202305213260
dc.language.isoenen
dc.programmeMaster's Programme in Mathematics and Operations Researchfi
dc.programme.majorSystems and Operations Researchfi
dc.programme.mcodeSCI3055fi
dc.subject.keyworddrift detectionen
dc.subject.keywordanomaly detectionen
dc.subject.keywordregressionen
dc.subject.keywordBayesian autoencoderen
dc.subject.keywordstatistical testsen
dc.titleDrift detection methods for data streamsen
dc.titlePoikkeamien tunnistaminen aikasarjadatastafi
dc.typeG2 Pro gradu, diplomityöfi
dc.type.ontasotMaster's thesisen
dc.type.ontasotDiplomityöfi
local.aalto.electroniconlyyes
local.aalto.openaccessyes

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
master_Hakkarainen_Riina_2023.pdf
Size:
2.01 MB
Format:
Adobe Portable Document Format