Exploring correlated data: confidence bands and projections of shared variation

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Doctoral thesis (article-based) | Defence date: 2018-03-15

Date

2018

Major/Subject

Mcode

Degree programme

Language

en

Pages

108 + app. 82

Series

Aalto University publication series DOCTORAL DISSERTATIONS, 30/2018

Abstract

The steady increase in automatic data collection and analysis creates new possibilities for data-driven decision making. Consequently there is a need for the development of new explorative data analysis methods. This thesis deals with two such methods: multivariate confidence intervals and finding shared variation between datasets.  First, we present a method to visualize the variation of a set of vector-valued data items. The visualization is a two dimensional confidence band, whose interpretation is similar to that of a one dimensional confidence interval. The goal is to have a band that covers a predefined fraction of the probability mass of the data vector distribution, such that the band can be used to assess likely values for a typical vector. We introduce new methods to compute the bands as well as describe in more detail the technical implementations of existing methods. In addition, we present a correction procedure that adjusts the coverage properties of the band when computed from a finite sample.  The second part of the work deals with finding shared variation between datasets of a data collection. The analysis is applied to data collections that describe a certain process from multiple views, and hence the shared variation becomes a measure of the underlying process. The method can be used to find the periods during which the datasets share variation with each other.  To solve the problem, we propose a filtering approach based on ordinary regression functions. The algorithm filters away all variation that is not shared by all of the datasets. Advantages of the method include easy implementation and adaptability – by changing the regression function one can easily change the definition of shared variation to match the problem at hand.  Confidence bands have many applications in expressing the variability of time series and other vector valued data. A prime example are time series model forecasts whose modeling uncertainty is often visualized using a confidence band. Analysis of shared variation, on the other hand, is often needed in conjunction with biosignal analysis where one might be, e.g., interested in finding shared and unshared changes in signal level between test subjects.

Automaattisen tietojenkeruun ja -käsittelyn yleistyessä mahdollisuudet dataan perustuvaan päätöksentekoon paranevat jatkuvasti. Tämä suuntaus myös ruokkii tarvetta uusien tutkivien data-analyysimenetelmien kehittämiseen. Tässä väitöskirjassa käsitellään kahta tällaista menetelmää: moniulotteisia luottamusvälejä sekä datamatriisien välisen yhteisen vaihtelun etsintää.  Työn ensimmäisessä osassa esitämme visuaalisen menetelmän vektoriarvoisen datan vaihtelun kuvaamiseen. Vaihtelu visualisoidaan kaksiulotteisena luottamusnauhana, joka tulkinnaltaan vastaa yksiulotteisen datan luottamusväliä. Tavoitteena on, että nauha peittää ennalta määrätyn osuuden vektoreiden jakaumasta, jolloin nauhaa voi käyttää havainnollistamaan vektorijakauman tyypillisiä arvoja.  Työssä esitetään uusia menetelmiä luottamusnauhojen laskemiseksi sekä käydään läpi aiempaa tarkemmin kirjallisuudessa jo esitettyjen menetelmien teknisiä toteutuksia. Lisäksi ehdotetaan menettelyä, jolla nauhan peitto saadaan halutun suuruiseksi myös äärellisillä havaintomäärillä.  Työn toisessa osassa etsitään jaettua vaihtelua samaan kokoelmaan kuuluvista datamatriiseista. Sovelluskohteena ovat samaa prosessia eri näkökulmista kuvaavat datamatriisikokoelmat, joiden jaettu vaihtelu antaa epäsuorasti tietoa taustalla vaikuttavasta prosessista. Menetelmä löytää ne ajanjaksot, joilla datamatriiseissa tapahtuu yhtäaikaista vaihtelua.  Ongelman ratkaisuksi ehdotetaan tavanomaisiin regressiofunktioihin perustuvaa suodatusmenettelyä, joka suodattaa pois kaiken sellaisen vaihtelun, joka ei ole kaikille datamatriiseille yhteistä. Menetelmän etuja ovat helppo toteutettavuus sekä muokattavuus – regressiofunktiota vaihtamalla voidaan kätevästi muuttaa jaetun vaihtelun määritelmää kulloiseenkin tilanteeseen sopivaksi.  Luottamusnauhoille on käyttöä erityisesti aikasarjojen sekä muun vektoriarvoisen datan vaihtelun kuvaamisessa. Tyypillinen esimerkki ovat aikasarjamallien tuottamat ennusteet, joiden epävarmuus havainnollistetaan usein käyttäen luottamusnauhoja. Datamatriisien välistä jaettua vaihtelua puolestaan tutkitaan usein biosignaalien analyysin yhteydessä, esimerkiksi selvitettäessä sitä, mitkä aktivaatiot ovat tai eivät ole jollekin koehenkilöryhmälle yhteisiä.

Description

Supervising professor

Puolamäki, Kai, Prof., Aalto University, Department of Computer Science, Finland

Thesis advisor

Gionis, Aristides, Prof., Aalto University, Department of Computer Science, Finland

Keywords

time series, confidence band, simultaneous confidence interval, visualization, shared variation, regression, aikasarja, luottamusnauha, luottamusväli, visualisointi, jaettu vaihtelu, regressio

Other note

Parts

  • [Publication 1]: Korpela, J., Puolamäki, K., Gionis, A. 2014. Confidence bands for time series data. Data Mining and Knowledge Discovery, 28, 5-6, 1530–1553,
    DOI: 10.1007/s10618-014-0371-0 View at publisher
  • [Publication 2]: Korpela, J., Oikarinen, E., Puolamäki, K., Ukkonen, A. 2017. Multivariate Confidence Intervals. In Proceedings of the 2017 SIAM International Conference on Data Mining (SDM-2017), 696-704,
    DOI: 10.1137/1.9781611974973.78 View at publisher
  • [Publication 3]: Korpela, J., Henelius, A., Ahonen, L., Klami, A., Puolamäki, K. 2016. Using regression makes extraction of shared variation in multiple datasets easy. Data Mining and Knowledge Discovery, 30, 5, 1112-1133, doi:10.1007/s10618-016-0465-y
  • [Publication 4]: Henelius, A., Korpela, J., Puolamäki, K. 2013. Explaining Interval Sequences by Randomization. In Proceedings of the European Conference on Machine Learning and Knowledge Discovery in Databases (ECML-PKDD 2013), 337–352,
    DOI: 10.1007/978-3-642-40988-2_22 View at publisher

Citation