Advances in Methods of Anomaly Detection and Visualization of Multivariate Data

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Doctoral thesis (article-based) | Defence date: 2015-03-27
Checking the digitized thesis and permission for publishing
Instructions for the author

Date

2015

Major/Subject

Mcode

Degree programme

Language

en

Pages

132 + app. 67

Series

Aalto University publication series DOCTORAL DISSERTATIONS, 31/2015

Abstract

Successful machine learning applications have been developed in almost all fields where measurable data exists. For example, computers can learn the best treatment for a particular disease from medical records and self-customized programs can recommend different products for customers. In this thesis, statistical and machine learning methods have been applied in both time series and static multivariate data sets, which have unknown and potentially useful information. Data can be understood better by developing new methods because a large number of data samples and variables makes it difficult to interpret the research materials. The research material for the development of anomaly detection methods and presenting the results consisted of process signal data from Olkiluoto nuclear power plant, the results of the Parliamentary elections and the answers of the voting advice application, and aggregated car inspection data. The process state changes can be detected by the procedures and the visualization techniques developed in this research. These potential anomalies should be detected as soon as possible and in an early stage using the signal measurements. Challenges related to stochastic processes have been solved using recursive models and neural networks. The results related to the static multivariate data demonstrate that the combination of principal component analysis and probability distributions makes it possible to estimate missing values and understand the dependencies of the observations. A significantly larger number of missing data can be estimated by the recommender system and thus the resulting complete data can be explored by other machine learning methods e.g. by a self-organizing map. These methods make it possible to analyze the missing value dependencies of the multivariate data sets and thus improve the detection of anomaly observations. Applying the machine learning methods discussed in this thesis; dramatically increasing information can be utilized more effectively. Data can be modified into an understandable form, detect existing anomalies in it and thus used as decision support regardless of the research area.

Menestyksekkäitä koneoppimisjärjestelmiä on kehitetty lähes kaikilla aloilla, joilla mitattavaa dataa esiintyy. Tietokoneet voivat esimerkiksi oppia parhaan hoitotavan tiettyyn sairauteen potilastiedoista ja itsestään kustomoituvat ohjelmat pystyvät suosittelemaan erilaisia tuotteita asiakkaille. Tässä väitöskirjassa tilasto- ja koneoppimismenetelmiä sovellettiin sekä aikasarjoihin että staattisiin monimuuttajadatoihin, jotka sisältävät tuntematonta ja mahdollisesti hyödyllistä informaatiota. Dataa voidaan ymmärtää paremmin kehittämällä uusia menetelmiä, sillä suuri näytteiden ja muuttujien määrä vaikeuttaa tutkittavien aineistojen tulkintaa. Poikkeavuuksien tunnistamiseen tarkoitettujen menetelmien kehitystyöhön ja tulosten esittämiseen käytettiin prosessisignaalidataa Olkiluodon ydinvoimalasta, eduskuntavaalien tuloksia ja ehdokkaiden vaalikonevastauksia sekä aggregoituja autokatsastustilastoja. Prosessitilan muutoksia voidaan havaita tutkimuksessa kehitetyillä menettelytavoilla ja visualisointitekniikoilla. Nämä mahdolliset poikkeavuudet olisi pystyttävä tunnistamaan signaalimittausten avulla mahdollisimman nopeasti ja varhaisessa vaiheessa. Stokastisiin prosesseihin liittyvät haasteet ratkaistiin käyttämällä rekursiivisia malleja ja neuroverkkoja. Staattisiin monimuuttujadatoihin liittyvät tulokset osoittavat sen, että pääkomponenttianalyysin ja todennäköisyysjakaumien yhdistelmällä on mahdollista estimoida puuttuvia havaintoja ja ymmärtää havaintojen välisiä riippuvuuksia. Huomattavasti suurempi määrä puuttuvaa tietoa pystytään estimoimaan suosittelujärjestelmän avulla ja siten tutkia täydennettyä aineistoa muilla koneoppimismenetelmillä, kuten itseorganisoituvalla kartalla. Nämä menetelmät mahdollistavat moniulotteisten aineistojen riippuvuuksien tutkimisen myös puuttuvien tietojen osalta ja siten edistävät poikkeavien havaintojen tunnistamista. Väitöskirjassa kehitetyillä ja sovelletuilla koneoppimismenetelmillä pystytään tehokkaammin hyödyntämään rajusti lisääntyvää informaatiota. Data voidaan muuttaa ymmärrettävään muotoon, havaita siinä esiintyviä poikkeavuuksia ja siten käyttää päätöksenteon tukena sovellusalasta riippumatta.

Description

Supervising professor

Simula, Olli, Prof., Aalto University, Department of Information and Computer Science, Finland

Thesis advisor

Sirola, Miki, Docent, Aalto University, Department of Information and Computer Science, Finland
Sulkava, Mika, Dr., MTT Agrifood Research, Finland

Keywords

machine learning, data mining, process monitoring, anomaly detection, multivariate data, variable selection, dimensionality reduction, self-organizing map, modeling, visualization, nuclear power plant, political data, car inspection data, koneoppiminen, tiedonlouhinta, prosessin monitorointi, poikkeavuuksien tunnistaminen, monimuuttajadata, muuttujavalinta, ulotteisuudenpienennys, itseorganisoituva kartta, mallinnus, visualisointi, ydinvoimalaitos, poliittinen data, katsastusdata

Other note

Parts

  • [Publication 1]: Jaakko Talonen, Miki Sirola, and Jukka Parviainen. Leakage Detection by Adaptive Process Modeling. In International Conference on Data Mining, USA, Las Vegas, 49–52, July 2008.
  • [Publication 2]: Jaakko Talonen and Miki Sirola. Abnormal Process State Detection by Cluster Center Point Monitoring in BWR Nuclear Power Plant. In International Conference on Data Mining, USA, Las Vegas, 247–250, July 2009.
  • [Publication 3]: Jaakko Talonen and Miki Sirola. Generated Control Limits as a Basis of Operator-Friendly Process Monitoring. In IEEE International Workshop on Intelligent Data Acquisition and Advanced Computing Systems: Technology and Applications, Italy, Cosenza, 468–472, September 2009.
    DOI: 10.1109/IDAACS.2009.5342939 View at publisher
  • [Publication 4]: Jaakko Talonen, Miki Sirola, and Eimontas Augilius. Modeling Power Output at Nuclear Power Plant by Neural Networks. In 20th International Conference on Artificial Neural Networks, Greece, Thessaloniki, 46–49, September 2010, ICANN 2010.
    DOI: 10.1007/978-3-642-15819-3_6 View at publisher
  • [Publication 5]: Jaakko Talonen and Mika Sulkava. Analyzing Parliamentary Elections Based on Voting Advice Application Data. In Intelligent Data Analysis, Portugal, Porto, 340–351, October 2011, IDA 2011.
    DOI: 10.1007/978-3-642-24800-9_32 View at publisher
  • [Publication 6]: Jaakko Talonen, Miki Sirola, and Mika Sulkava. Network Visualization of Car Inspection Data using Graph Layout. In Data Analytics, Spain, Barcelona, 39–42, September 2012.
  • [Publication 7]: Jaakko Talonen, Mika Sulkava and Miki Sirola. The Finnish Car Rejection Reasons Shown in an Interactive SOM Visualization Tool. In Workshop on Self-Organizing Maps, Chile, Santiago, 325–334, December 2012, WSOM 2012.
    DOI: 10.1007/978-3-642-35230-0_33 View at publisher
  • [Publication 8]: Miki Sirola and Jaakko Talonen. Self-organizing map based visualization techniques and their assessment. International Journal of Computing, Vol. 11, issue 2, pages 96–103, http://www.computingonline.net, September 2012.

Citation