Unsupervised anomaly detection in high-throughput NMR metabolomics
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Sähkötekniikan korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2020-06-15
Department
Major/Subject
Translational Engineering
Mcode
ELEC3023
Degree programme
AEE - Master’s Programme in Automation and Electrical Engineering (TS2013)
Language
en
Pages
49
Series
Abstract
Anomaly detection is a subfield of data mining concerned with the identification of outliers, that is, abnormal events. There is a large demand for automatic anomaly detection because of the massive amounts of data generated in the world today. In this Master's thesis a literature review on unsupervised anomaly detection, especially one-class classification, is presented. The unique challenges that arise in unsupervised clustering of high-dimensional data are also covered. As the second part of this thesis a case study was conducted, where the primary goal was to make the quality control process of a commercial metabolomics platform based on nuclear magnetic resonance spectroscopy more cost-effective. A novel, unsupervised anomaly detection framework based on the one-class support vector machine was developed and applied to the commercial platform. The problem was challenging because of the complexity of the data we needed to classify, and because of the high dimensionality of the data. Assessing the performance of the anomaly detection framework was not straightforward because of the high dimensionality and inherent subjectiveness of unsupervised learning, but the framework could still be evaluated using a human-labeled dataset of some 15,000 blood sample measurements. The results obtained were very promising; in most cases, all of the anomalies present in the dataset were classified correctly. Additionally, the number of normal samples falsely classified as anomalous was quite low. It was concluded that the one-class support vector machine is a viable option for automatic quality control in nuclear magnetic resonance spectroscopy, at least in this specific setting.Poikkeamien tunnistus on tiedonlouhinnan osa-alue, joka tutkii poikkeavien havaintojen tunnistamista. Nykymaailmassa poikkeamien tunnistukselle on suuri kysyntä nykyään tuotetun valtavan tietomäärän vuoksi. Tässä diplomityössä esitellään kirjallisuuskatsauksella ohjaamattoman poikkeamien tunnistuksen perusteet, keskittyen eritoten yhden luokan luokitteluun. Myös erittäin suuriulotteisen tiedon klusteroinnissa esiin tulevat erityiset ongelmat tuodaan esille. Tämän opinnäytetyön toisena osana tehtiin tapaustutkimus, jonka ensisijainen tavoite oli tehdä erään kaupallisen, ydinmagneettiseen resonanssispektroskopiaan perustuvan metabolomia-alustan laadunvalvontaprosessista kustannustehokkaampi. Osana tutkimusta kehitettiin uusi, yhden luokan tukivektorikoneeseen perustuva ohjaamaton poikkeamientunnistustapa. Tapaa sovellettiin aiemmin mainittuun kaupalliseen alustaan. Ongelma oli vaikea luokiteltavan tiedon monimutkaisuuden ja ulottuvuuksien suuren määrän takia. Kehitetyn poikkeamientunnistustavan suorituskyvyn arviointi ei ollut kovin suoraviivaista ulottuvuuksien suuren määrän takia, ja koska ohjaamaton oppiminen on luonteeltaan aina jossain määrin subjektiivista. Tästä huolimatta kehitetty tapa voitiin arvioida ihmisen luokitteleman, noin 15 000 verimittausta käsittävän tietojoukon avulla. Saadut tulokset olivat erittäin lupaavia; suurimassa osassa tapauksia kaikki poikkeamat luokiteltiin oikein. Myöskin väärin poikkeamiksi luokiteltujen normaalien tapausten määrä oli varsin pieni. Johtopäätöksenä voitiin todeta, että yhden luokan tukivektorikonetta on mahdollista käyttää automaattiseen laadunvalvontaan ydinmagneettisessa resonanssispektroskopiassa, ainakin tässä kyseisessä ympäristössä.Description
Supervisor
Rousu, JuhoThesis advisor
Nybo, KristianKeywords
anomaly detection, novelty detection, one-class support vector machine, SVM, NMR spectroscopy, high-throughput metabolomics