Exploring classifier attribute interactions and time series using constrained randomisations
Loading...
URL
Journal Title
Journal ISSN
Volume Title
School of Science |
Doctoral thesis (article-based)
| Defence date: 2017-05-05
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2017
Major/Subject
Mcode
Degree programme
Language
en
Pages
120 + app. 89
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 58/2017
Abstract
Gaining insight into structures and properties in data is a central problem in data mining and knowledge discovery. This is essential when the data is to be used, e.g., in decision-making. In this thesis we consider investigating the structure of data in two cases: temporal structures in time series, and attribute interactions utilised by classifiers. Time series are ubiquitous and represent an important type of data. We investigate temporal structures in time series, focusing on interval sequences. We seek explanations for observed properties by constructing and evaluating null hypotheses describing the internal properties of the time series. We approach this as a hypothesis testing problem where observed time series are compared to randomly generated instances. The properties being investigated are modelled in terms of constraints on the randomisations, allowing complex relationships to be examined and explained. Furthermore, we apply computational methods in the analysis of a sleep study to explain the relationship between time series representing heart rate variability and performance on a psychomotor vigilance test. Classification has wide applicability in multiple domains, however, many high-performing classifiers are essentially opaque, black-box algorithms, making it difficult to gain insight into the basis for predictions. In classifier analysis we consider attribute interactions utilised by classifiers. An interaction means that two or more attributes jointly carry information with respect to, e.g., a class label. We study two different types of interactions. Firstly, we investigate relationships between attributes in a dataset and show how this is related to factorising the class-conditional joint data distribution, such that attributes in the same factor are interacting while attributes in different factors are independent, given the class. We devise a method for testing the hypothesis that a dataset originates from a generating distribution with a particular factorised form. Secondly, we investigate how classifiers exploit attribute interactions in making predictions and develop a novel framework based on constrained randomisations for partitioning the attributes of a dataset into groups based on how they are jointly exploited by the classifier. The methods developed here are useful in several data analysis applications, e.g., in enhancing the interpretability of opaque classifiers, detecting adverse drug interactions in pharmacovigilance, anonymising data and gaining insight into the structure of datasets.Ett centralt problem inom data- och kunskapsutvinning är hur man skall få insikt i datans egenskaper och struktur. Detta är viktigt då datan används t.ex. för beslutsfattande. I denna avhandling granskas strukturer i data i två fall: temporala strukturer i tidsserier, samt hur klassificerare använder sig av samverkan mellan attribut i datan. Tidsserier är typiskt förekommande och utgör en viktig typ av data. Vi undersöker temporala strukturer i tidsserier, med fokus på intervallsekvenser. Vi skapar nollhypoteser som beskriver tidsseriens interna egenskaper och söker med hjälp av dessa förklaringar för observerade egenskaper. Vi närmar oss detta som ett hypotestestningsproblem, där den observerade tidsserien jämförs mot slumpmässigt skapade instanser. Egenskaperna vi undersöker beskrivs genom begränsade randomiseringar, vilket gör det möjligt att undersöka och hitta förklaringar till komplexa förhållanden. Vidare använder vi beräkningsmetoder i analysen av data från en sömnstudie, för att förklara förhållandet mellan tidsserier beskrivande hjärtfrekvensvariabilitet och psykomotorisk vaksamhet. Klassificering har ett brett tillämpningsområde inom olika områden, men ett problem är att många av de mest effektiva klassificerarna är opaka svarta lådor, vilket gör det är svårt att få inblick i hur förutsägelserna görs. Vi studerar här hur klassificerare utnyttjar attributinteraktioner i datan. En interaktion innebär att två eller fler attribut samverkar med avseende på t.ex. en klassvariabel. Vi betraktar två typer av interaktioner. Det första fallet utgörs av förhållandet mellan attribut i datamängden. Vi visar hur detta problem är relaterat till en faktorisering av attributens klassberoende simultanfördelning, så att attribut i samma faktor samverkar, medan attribut i olika faktorer är oberoende, med hänsyn till klassvariabeln. Vi presenterar en ny metod för att undersöka hypotesen att datan härstammar från en distribution med en särskild faktoriserad form. Det andra fallet gäller hur klassificerare utnyttjar attributinteraktioner för förutsägelser och vi presenterar en ny metod för att dela in attributen i grupper på basen av hur algoritmen utnyttjar deras samverkan. Metoden bygger på begränsad randomisering av datan. Metoderna vi utvecklat är generella och användbara inom analys av data och de möjliggör t.ex. förståelse av svårtolkade klassificerare, undersökning av samverkan mellan mediciner inom farmakovigilans, anonymisering av data samt bättre insikt i datans struktur.Description
Supervising professor
Gionis, Aristides, Prof., Aalto University, Department of Computer Science, FinlandThesis advisor
Puolamäki, Kai, Doc., Finnish Institute of Occupational Health, FinlandKeywords
constrained randomisations, significance testing, time series, modelling, classifiers, classifier analysis, attribute interactions
Other note
Parts
-
[Publication 1]: Henelius, A., Korpela, J., and Puolamäki, K. Explaining Interval Sequences by Randomization.In Proceedings of the European Conference on Machine Learning and Knowledge Discovery in Databases (ECML PKDD 2013), pages 337–352. Springer, 2013,
DOI: 10.1007/978-3-642-40988-2_22 View at publisher
-
[Publication 2]: Henelius, A., Sallinen, M., Huotilainen, M., Müller, K., Virkkala, J., and Puolamäki, K. Heart Rate Variability for Evaluating Vigilant Attention in Partial Chronic Sleep Restriction. Sleep, 37(7):1257–1267, 2014b,
DOI: 10.5665/sleep.3850 View at publisher
-
[Publication 3]: Henelius, A., Puolamäki, K., Boström, H., Asker, L., and Papapetrou, P., A peek into the black box: Exploring classifiers by randomization. Data Mining and Knowledge Discovery, 28(5–6): 1503–1529, 2014a,
DOI: 10.1007/s10618-014-0368-8 View at publisher
- [Publication 4]: Henelius, A., Puolamäki, K., Karlsson, I., Zhao, J., Asker, L., Boström, H., and Papapetrou, P. GoldenEye++: A Closer Look into the Black Box. In Proceedings of the Third International Symposiumon Statistical Learning and Data Sciences (SLDS 2015), pages 96–105. Springer, 2015,DOI: 10.1007/978-3-319-17091-6_5
- [Publication 5]: Henelius, A., Puolamäki, K., and Ukkonen, A. Finding Statistically Significant Attribute Interactions. Submitted to ACM SIGKDD international conference on Knowledge discovery and data mining(KDD 2017), arXiv e-prints, arXiv:1612.07597, 2017