Advances in variable selection and visualization methods for analysis of multivariate data
No Thumbnail Available
URL
Journal Title
Journal ISSN
Volume Title
Doctoral thesis (article-based)
Checking the digitized thesis and permission for publishing
Instructions for the author
Instructions for the author
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2007-10-19
Major/Subject
Mcode
Degree programme
Language
en
Pages
62, [69]
Series
Dissertations in Computer and Information Science. Report D, 22
Abstract
This thesis concerns the analysis of multivariate data. The amount of data that is obtained from various sources and stored in digital media is growing at an exponential rate. The data sets tend to be too large in terms of the number of variables and the number of observations to be analyzed by hand. In order to facilitate the task, the data set must be summarized somehow. This work introduces machine learning methods that are capable of finding interesting patterns automatically from the data. The findings can be further used in decision making and prediction. The results of this thesis can be divided into three groups. The first group of results is related to the problem of selecting a subset of input variables in order to build an accurate predictive model for several response variables simultaneously. Variable selection is a difficult combinatorial problem in essence, but the relaxations examined in this work transform it into a more tractable optimization problem of continuous-valued parameters. The main contribution here is extending several methods that are originally designed for a single response variable to be applicable with multiple response variables as well. Examples of such methods include the well known lasso estimate and the least angle regression algorithm. The second group of results concerns unsupervised variable selection, where all variables are treated equally without making any difference between responses and inputs. The task is to detect the variables that contain, in some sense, as much information as possible. A related problem that is also examined is combining the two major categories of dimensionality reduction: variable selection and subspace projection. Simple modifications of the multiresponse regression techniques developed in this thesis offer a fresh approach to these unsupervised learning tasks. This is another contribution of the thesis. The third group of results concerns extensions and applications of the self-organizing map (SOM). The SOM is a prominent tool in the initial exploratory phase of multivariate analysis. It provides a clustering and a visual low-dimensional representation of a set of high-dimensional observations. Firstly, an extension of the SOM algorithm is proposed in this thesis, which is applicable to strongly curvilinear but intrinsically low-dimensional data structures. Secondly, an application of the SOM is proposed to interpret nonlinear quantile regression models. Thirdly, a SOM-based method is introduced for analyzing the dependency of one multivariate data set on another.Tämä väitöskirja käsittelee moniulotteisen tietoaineiston analysointia. Lukuisista lähteistä peräisin olevien, digitaaliseen muotoon tallennettujen tietoaineistojen määrä kasvaa eksponentiaalisesti. Aineistot ovat usein hyvin isoja sekä havaintokertojen että mitattujen muuttujien lukumäärän suhteen. Jotta analysointi onnistuisi, aineistoa täytyy redusoida. Tässä työssä tutkitaan koneoppimisen menetelmiä, joilla voidaan automaattisesti löytää mielenkiintoisia piirteitä tietoaineistosta. Löydöksiä voidaan käyttää edelleen päätöksenteossa ja tilastollisessa ennustamisessa. Väitöskirjan tulokset voidaan jakaa kolmeen ryhmään. Ensimmäinen tulosten ryhmä liittyy syötemuuttujien valintaan regressiotehtävässä, jossa useita vastemuuttujia pyritään ennustamaan samanaikaisesti. Muuttujien valinta on luonteeltaan hankala kombinatorinen ongelma, mutta väitöskirjassa tutkitut relaksaatiot muuntavat sen yksinkertaisemmaksi jatkuva-arvoisten parametrien optimointiongelmaksi. Tähän liittyvä väitöskirjan merkittävä kontribuutio on lukuisten yksivastemenetelmien laajentaminen siten, että niitä voidaan käyttää myös useiden vastemuuttujien ennustamiseen. Lasso-estimaatti ja least angle regression -algoritmi ovat esimerkkejä tällaisista yksivastemenetelmistä. Toinen tulosten ryhmä koskee ohjaamatonta muuttujien valintaa, jossa kaikkia muuttujia käsitellään samalla tavalla tekemättä eroa syöte- ja vastemuuttujien välille. Tehtävänä on löytää muuttujat, jotka ovat tavalla tai toisella informatiivisia. Läheinen ongelma, jota väitöskirjassa myös tarkastellaan, on muuttujien valinnan ja aliavaruusprojektion yhdistäminen. Nämä ovat kaksi tärkeintä ulotteisuuden pienentämisen kategoriaa. Väitöskirjassa kehitetyt usean vastemuuttujan regressiomenetelmät tarjoavat pienin muunnoksin uudenlaisen lähestymistavan näihin ohjaamattoman oppimisen ongelmiin, mikä on tärkeä työn kontribuutio. Kolmas tulosten ryhmä koostuu itseorganisoivan kartan (SOM) laajennuksista ja sovelluksista. SOM on käyttökelpoinen työkalu moniulotteisen tietoaineiston alustavassa, tutkiskelevassa analyysissä. Se tuottaa tietoaineistolle ryhmittelyn ja havainnollisen, matalaulotteisen esitysmuodon. Ensiksi väitöskirjassa esitetään SOM:n laajennus, joka soveltuu erityisesti voimakkaasti kaarevien tai mutkikkaiden mutta sisäisesti matalaulotteisten rakenteiden analysointiin tietoaineistossa. Toiseksi esitetään SOM:n sovellus, joka helpottaa epälineaaristen kvantiiliregressiomallien tulkintaa. Kolmanneksi esitetään SOM-pohjainen menetelmä, jolla voidaan tutkia moniulotteisen tietoaineiston riippuvuuksia jostakin toisesta moniulotteisesta aineistosta.Description
Keywords
machine learning, dimensionality reduction, regression, information visualization, variable selection, koneoppiminen, ulotteisuuden pienentäminen, regressio, informaation visualisointi, muuttujien valinta
Other note
Parts
- Timo Similä and Sampsa Laine (2005). Visual approach to supervised variable selection by self-organizing map, International Journal of Neural Systems 15 (1-2): 101-110.
- Timo Similä (2005). Self-organizing map learning nonlinearly embedded manifolds, Information Visualization 4 (1): 22-31. [article2.pdf] © 2005 Palgrave Macmillan. By permission.
- Timo Similä and Jarkko Tikka (2005). Multiresponse sparse regression with application to multidimensional scaling, in W. Duch, J. Kacprzyk, E. Oja and S. Zadrozny (eds), Proceedings of the 15th International Conference on Artificial Neural Networks: Formal Models and Their Applications - ICANN 2005, Part II, Springer, Lecture Notes in Computer Science, Vol. 3697, pp. 97-102. [article3.pdf] © 2005 Springer Science+Business Media. By permission.
- Timo Similä (2006). Self-organizing map visualizing conditional quantile functions with multidimensional covariates, Computational Statistics & Data Analysis 50 (8): 2097-2110.
- Timo Similä and Jarkko Tikka (2006). Common subset selection of inputs in multiresponse regression, Proceedings of the 2006 IEEE International Joint Conference on Neural Networks - IJCNN 2006, pp. 1908-1915. [article5.pdf] © 2006 IEEE. By permission.
- Timo Similä (2007). Majorize-minimize algorithm for multiresponse sparse regression, Proceedings of the 32nd IEEE International Conference on Acoustics, Speech, and Signal Processing - ICASSP 2007, Vol. II, pp. 553-556. [article6.pdf] © 2007 IEEE. By permission.
- Timo Similä and Jarkko Tikka (2007). Input selection and shrinkage in multiresponse linear regression, Computational Statistics & Data Analysis 52 (1): 406-422. [article7.pdf] © 2007 Elsevier Science. By permission.