Advances in Methods of Anomaly Detection and Visualization of Multivariate Data

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.advisor Sirola, Miki, Docent, Aalto University, Department of Information and Computer Science, Finland
dc.contributor.advisor Sulkava, Mika, Dr., MTT Agrifood Research, Finland
dc.contributor.author Talonen, Jaakko
dc.date.accessioned 2015-03-03T10:00:43Z
dc.date.available 2015-03-03T10:00:43Z
dc.date.issued 2015
dc.identifier.isbn 978-952-60-6112-2 (electronic)
dc.identifier.isbn 978-952-60-6111-5 (printed)
dc.identifier.issn 1799-4942 (electronic)
dc.identifier.issn 1799-4934 (printed)
dc.identifier.issn 1799-4934 (ISSN-L)
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/15255
dc.description.abstract Successful machine learning applications have been developed in almost all fields where measurable data exists. For example, computers can learn the best treatment for a particular disease from medical records and self-customized programs can recommend different products for customers. In this thesis, statistical and machine learning methods have been applied in both time series and static multivariate data sets, which have unknown and potentially useful information. Data can be understood better by developing new methods because a large number of data samples and variables makes it difficult to interpret the research materials. The research material for the development of anomaly detection methods and presenting the results consisted of process signal data from Olkiluoto nuclear power plant, the results of the Parliamentary elections and the answers of the voting advice application, and aggregated car inspection data. The process state changes can be detected by the procedures and the visualization techniques developed in this research. These potential anomalies should be detected as soon as possible and in an early stage using the signal measurements. Challenges related to stochastic processes have been solved using recursive models and neural networks. The results related to the static multivariate data demonstrate that the combination of principal component analysis and probability distributions makes it possible to estimate missing values and understand the dependencies of the observations. A significantly larger number of missing data can be estimated by the recommender system and thus the resulting complete data can be explored by other machine learning methods e.g. by a self-organizing map. These methods make it possible to analyze the missing value dependencies of the multivariate data sets and thus improve the detection of anomaly observations. Applying the machine learning methods discussed in this thesis; dramatically increasing information can be utilized more effectively. Data can be modified into an understandable form, detect existing anomalies in it and thus used as decision support regardless of the research area. en
dc.description.abstract Menestyksekkäitä koneoppimisjärjestelmiä on kehitetty lähes kaikilla aloilla, joilla mitattavaa dataa esiintyy. Tietokoneet voivat esimerkiksi oppia parhaan hoitotavan tiettyyn sairauteen potilastiedoista ja itsestään kustomoituvat ohjelmat pystyvät suosittelemaan erilaisia tuotteita asiakkaille. Tässä väitöskirjassa tilasto- ja koneoppimismenetelmiä sovellettiin sekä aikasarjoihin että staattisiin monimuuttajadatoihin, jotka sisältävät tuntematonta ja mahdollisesti hyödyllistä informaatiota. Dataa voidaan ymmärtää paremmin kehittämällä uusia menetelmiä, sillä suuri näytteiden ja muuttujien määrä vaikeuttaa tutkittavien aineistojen tulkintaa. Poikkeavuuksien tunnistamiseen tarkoitettujen menetelmien kehitystyöhön ja tulosten esittämiseen käytettiin prosessisignaalidataa Olkiluodon ydinvoimalasta, eduskuntavaalien tuloksia ja ehdokkaiden vaalikonevastauksia sekä aggregoituja autokatsastustilastoja. Prosessitilan muutoksia voidaan havaita tutkimuksessa kehitetyillä menettelytavoilla ja visualisointitekniikoilla. Nämä mahdolliset poikkeavuudet olisi pystyttävä tunnistamaan signaalimittausten avulla mahdollisimman nopeasti ja varhaisessa vaiheessa. Stokastisiin prosesseihin liittyvät haasteet ratkaistiin käyttämällä rekursiivisia malleja ja neuroverkkoja. Staattisiin monimuuttujadatoihin liittyvät tulokset osoittavat sen, että pääkomponenttianalyysin ja todennäköisyysjakaumien yhdistelmällä on mahdollista estimoida puuttuvia havaintoja ja ymmärtää havaintojen välisiä riippuvuuksia. Huomattavasti suurempi määrä puuttuvaa tietoa pystytään estimoimaan suosittelujärjestelmän avulla ja siten tutkia täydennettyä aineistoa muilla koneoppimismenetelmillä, kuten itseorganisoituvalla kartalla. Nämä menetelmät mahdollistavat moniulotteisten aineistojen riippuvuuksien tutkimisen myös puuttuvien tietojen osalta ja siten edistävät poikkeavien havaintojen tunnistamista. Väitöskirjassa kehitetyillä ja sovelletuilla koneoppimismenetelmillä pystytään tehokkaammin hyödyntämään rajusti lisääntyvää informaatiota. Data voidaan muuttaa ymmärrettävään muotoon, havaita siinä esiintyviä poikkeavuuksia ja siten käyttää päätöksenteon tukena sovellusalasta riippumatta. fi
dc.format.extent 132 + app. 67
dc.format.mimetype application/pdf en
dc.language.iso en en
dc.publisher Aalto University en
dc.publisher Aalto-yliopisto fi
dc.relation.ispartofseries Aalto University publication series DOCTORAL DISSERTATIONS en
dc.relation.ispartofseries 31/2015
dc.relation.haspart [Publication 1]: Jaakko Talonen, Miki Sirola, and Jukka Parviainen. Leakage Detection by Adaptive Process Modeling. In International Conference on Data Mining, USA, Las Vegas, 49–52, July 2008.
dc.relation.haspart [Publication 2]: Jaakko Talonen and Miki Sirola. Abnormal Process State Detection by Cluster Center Point Monitoring in BWR Nuclear Power Plant. In International Conference on Data Mining, USA, Las Vegas, 247–250, July 2009.
dc.relation.haspart [Publication 3]: Jaakko Talonen and Miki Sirola. Generated Control Limits as a Basis of Operator-Friendly Process Monitoring. In IEEE International Workshop on Intelligent Data Acquisition and Advanced Computing Systems: Technology and Applications, Italy, Cosenza, 468–472, September 2009. DOI: 10.1109/IDAACS.2009.5342939
dc.relation.haspart [Publication 4]: Jaakko Talonen, Miki Sirola, and Eimontas Augilius. Modeling Power Output at Nuclear Power Plant by Neural Networks. In 20th International Conference on Artificial Neural Networks, Greece, Thessaloniki, 46–49, September 2010, ICANN 2010. DOI: 10.1007/978-3-642-15819-3_6
dc.relation.haspart [Publication 5]: Jaakko Talonen and Mika Sulkava. Analyzing Parliamentary Elections Based on Voting Advice Application Data. In Intelligent Data Analysis, Portugal, Porto, 340–351, October 2011, IDA 2011. DOI: 10.1007/978-3-642-24800-9_32
dc.relation.haspart [Publication 6]: Jaakko Talonen, Miki Sirola, and Mika Sulkava. Network Visualization of Car Inspection Data using Graph Layout. In Data Analytics, Spain, Barcelona, 39–42, September 2012.
dc.relation.haspart [Publication 7]: Jaakko Talonen, Mika Sulkava and Miki Sirola. The Finnish Car Rejection Reasons Shown in an Interactive SOM Visualization Tool. In Workshop on Self-Organizing Maps, Chile, Santiago, 325–334, December 2012, WSOM 2012. DOI: 10.1007/978-3-642-35230-0_33
dc.relation.haspart [Publication 8]: Miki Sirola and Jaakko Talonen. Self-organizing map based visualization techniques and their assessment. International Journal of Computing, Vol. 11, issue 2, pages 96–103, http://www.computingonline.net, September 2012.
dc.subject.other Computer science en
dc.title Advances in Methods of Anomaly Detection and Visualization of Multivariate Data en
dc.title Edistysaskeleet monimuuttujadatan poikkeavuuksien tunnistamis- ja visualisointimenetelmissä fi
dc.type G5 Artikkeliväitöskirja fi
dc.contributor.school Perustieteiden korkeakoulu fi
dc.contributor.school School of Science en
dc.contributor.department Tietotekniikan laitos fi
dc.contributor.department Department of Computer Science and Engineering en
dc.subject.keyword machine learning en
dc.subject.keyword data mining en
dc.subject.keyword process monitoring en
dc.subject.keyword anomaly detection en
dc.subject.keyword multivariate data en
dc.subject.keyword variable selection en
dc.subject.keyword dimensionality reduction en
dc.subject.keyword self-organizing map en
dc.subject.keyword modeling en
dc.subject.keyword visualization en
dc.subject.keyword nuclear power plant en
dc.subject.keyword political data en
dc.subject.keyword car inspection data en
dc.subject.keyword koneoppiminen fi
dc.subject.keyword tiedonlouhinta fi
dc.subject.keyword prosessin monitorointi fi
dc.subject.keyword poikkeavuuksien tunnistaminen fi
dc.subject.keyword monimuuttajadata fi
dc.subject.keyword muuttujavalinta fi
dc.subject.keyword ulotteisuudenpienennys fi
dc.subject.keyword itseorganisoituva kartta fi
dc.subject.keyword mallinnus fi
dc.subject.keyword visualisointi fi
dc.subject.keyword ydinvoimalaitos fi
dc.subject.keyword poliittinen data fi
dc.subject.keyword katsastusdata fi
dc.identifier.urn URN:ISBN:978-952-60-6112-2
dc.type.dcmitype text en
dc.type.ontasot Doctoral dissertation (article-based) en
dc.type.ontasot Väitöskirja (artikkeli) fi
dc.contributor.supervisor Simula, Olli, Prof., Aalto University, Department of Information and Computer Science, Finland
dc.opn Sachenko, Anatoly, Prof., Ternopil National Economic University, Ukraine
dc.contributor.lab Environmental and Industrial Machine Learning en
dc.rev Ritala, Risto, Prof., University of Tampere, Finland
dc.rev Turchenko, Volodymyr O., Associate Prof., University of Tennessee, USA
dc.date.defence 2015-03-27


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

My Account