Unsupervised anomaly detection in high-throughput NMR metabolomics

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Sähkötekniikan korkeakoulu | Master's thesis

Date

2020-06-15

Department

Major/Subject

Translational Engineering

Mcode

ELEC3023

Degree programme

AEE - Master’s Programme in Automation and Electrical Engineering (TS2013)

Language

en

Pages

49

Series

Abstract

Anomaly detection is a subfield of data mining concerned with the identification of outliers, that is, abnormal events. There is a large demand for automatic anomaly detection because of the massive amounts of data generated in the world today. In this Master's thesis a literature review on unsupervised anomaly detection, especially one-class classification, is presented. The unique challenges that arise in unsupervised clustering of high-dimensional data are also covered. As the second part of this thesis a case study was conducted, where the primary goal was to make the quality control process of a commercial metabolomics platform based on nuclear magnetic resonance spectroscopy more cost-effective. A novel, unsupervised anomaly detection framework based on the one-class support vector machine was developed and applied to the commercial platform. The problem was challenging because of the complexity of the data we needed to classify, and because of the high dimensionality of the data. Assessing the performance of the anomaly detection framework was not straightforward because of the high dimensionality and inherent subjectiveness of unsupervised learning, but the framework could still be evaluated using a human-labeled dataset of some 15,000 blood sample measurements. The results obtained were very promising; in most cases, all of the anomalies present in the dataset were classified correctly. Additionally, the number of normal samples falsely classified as anomalous was quite low. It was concluded that the one-class support vector machine is a viable option for automatic quality control in nuclear magnetic resonance spectroscopy, at least in this specific setting.

Poikkeamien tunnistus on tiedonlouhinnan osa-alue, joka tutkii poikkeavien havaintojen tunnistamista. Nykymaailmassa poikkeamien tunnistukselle on suuri kysyntä nykyään tuotetun valtavan tietomäärän vuoksi. Tässä diplomityössä esitellään kirjallisuuskatsauksella ohjaamattoman poikkeamien tunnistuksen perusteet, keskittyen eritoten yhden luokan luokitteluun. Myös erittäin suuriulotteisen tiedon klusteroinnissa esiin tulevat erityiset ongelmat tuodaan esille. Tämän opinnäytetyön toisena osana tehtiin tapaustutkimus, jonka ensisijainen tavoite oli tehdä erään kaupallisen, ydinmagneettiseen resonanssispektroskopiaan perustuvan metabolomia-alustan laadunvalvontaprosessista kustannustehokkaampi. Osana tutkimusta kehitettiin uusi, yhden luokan tukivektorikoneeseen perustuva ohjaamaton poikkeamientunnistustapa. Tapaa sovellettiin aiemmin mainittuun kaupalliseen alustaan. Ongelma oli vaikea luokiteltavan tiedon monimutkaisuuden ja ulottuvuuksien suuren määrän takia. Kehitetyn poikkeamientunnistustavan suorituskyvyn arviointi ei ollut kovin suoraviivaista ulottuvuuksien suuren määrän takia, ja koska ohjaamaton oppiminen on luonteeltaan aina jossain määrin subjektiivista. Tästä huolimatta kehitetty tapa voitiin arvioida ihmisen luokitteleman, noin 15 000 verimittausta käsittävän tietojoukon avulla. Saadut tulokset olivat erittäin lupaavia; suurimassa osassa tapauksia kaikki poikkeamat luokiteltiin oikein. Myöskin väärin poikkeamiksi luokiteltujen normaalien tapausten määrä oli varsin pieni. Johtopäätöksenä voitiin todeta, että yhden luokan tukivektorikonetta on mahdollista käyttää automaattiseen laadunvalvontaan ydinmagneettisessa resonanssispektroskopiassa, ainakin tässä kyseisessä ympäristössä.

Description

Supervisor

Rousu, Juho

Thesis advisor

Nybo, Kristian

Keywords

anomaly detection, novelty detection, one-class support vector machine, SVM, NMR spectroscopy, high-throughput metabolomics

Other note

Citation