Advances in variable selection and visualization methods for analysis of multivariate data

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.author Similä, Timo
dc.date.accessioned 2012-02-24T08:38:33Z
dc.date.available 2012-02-24T08:38:33Z
dc.date.issued 2007-10-19
dc.identifier.isbn 978-951-22-8930-1
dc.identifier.issn 1459-7020
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/2922
dc.description.abstract This thesis concerns the analysis of multivariate data. The amount of data that is obtained from various sources and stored in digital media is growing at an exponential rate. The data sets tend to be too large in terms of the number of variables and the number of observations to be analyzed by hand. In order to facilitate the task, the data set must be summarized somehow. This work introduces machine learning methods that are capable of finding interesting patterns automatically from the data. The findings can be further used in decision making and prediction. The results of this thesis can be divided into three groups. The first group of results is related to the problem of selecting a subset of input variables in order to build an accurate predictive model for several response variables simultaneously. Variable selection is a difficult combinatorial problem in essence, but the relaxations examined in this work transform it into a more tractable optimization problem of continuous-valued parameters. The main contribution here is extending several methods that are originally designed for a single response variable to be applicable with multiple response variables as well. Examples of such methods include the well known lasso estimate and the least angle regression algorithm. The second group of results concerns unsupervised variable selection, where all variables are treated equally without making any difference between responses and inputs. The task is to detect the variables that contain, in some sense, as much information as possible. A related problem that is also examined is combining the two major categories of dimensionality reduction: variable selection and subspace projection. Simple modifications of the multiresponse regression techniques developed in this thesis offer a fresh approach to these unsupervised learning tasks. This is another contribution of the thesis. The third group of results concerns extensions and applications of the self-organizing map (SOM). The SOM is a prominent tool in the initial exploratory phase of multivariate analysis. It provides a clustering and a visual low-dimensional representation of a set of high-dimensional observations. Firstly, an extension of the SOM algorithm is proposed in this thesis, which is applicable to strongly curvilinear but intrinsically low-dimensional data structures. Secondly, an application of the SOM is proposed to interpret nonlinear quantile regression models. Thirdly, a SOM-based method is introduced for analyzing the dependency of one multivariate data set on another. en
dc.description.abstract Tämä väitöskirja käsittelee moniulotteisen tietoaineiston analysointia. Lukuisista lähteistä peräisin olevien, digitaaliseen muotoon tallennettujen tietoaineistojen määrä kasvaa eksponentiaalisesti. Aineistot ovat usein hyvin isoja sekä havaintokertojen että mitattujen muuttujien lukumäärän suhteen. Jotta analysointi onnistuisi, aineistoa täytyy redusoida. Tässä työssä tutkitaan koneoppimisen menetelmiä, joilla voidaan automaattisesti löytää mielenkiintoisia piirteitä tietoaineistosta. Löydöksiä voidaan käyttää edelleen päätöksenteossa ja tilastollisessa ennustamisessa. Väitöskirjan tulokset voidaan jakaa kolmeen ryhmään. Ensimmäinen tulosten ryhmä liittyy syötemuuttujien valintaan regressiotehtävässä, jossa useita vastemuuttujia pyritään ennustamaan samanaikaisesti. Muuttujien valinta on luonteeltaan hankala kombinatorinen ongelma, mutta väitöskirjassa tutkitut relaksaatiot muuntavat sen yksinkertaisemmaksi jatkuva-arvoisten parametrien optimointiongelmaksi. Tähän liittyvä väitöskirjan merkittävä kontribuutio on lukuisten yksivastemenetelmien laajentaminen siten, että niitä voidaan käyttää myös useiden vastemuuttujien ennustamiseen. Lasso-estimaatti ja least angle regression -algoritmi ovat esimerkkejä tällaisista yksivastemenetelmistä. Toinen tulosten ryhmä koskee ohjaamatonta muuttujien valintaa, jossa kaikkia muuttujia käsitellään samalla tavalla tekemättä eroa syöte- ja vastemuuttujien välille. Tehtävänä on löytää muuttujat, jotka ovat tavalla tai toisella informatiivisia. Läheinen ongelma, jota väitöskirjassa myös tarkastellaan, on muuttujien valinnan ja aliavaruusprojektion yhdistäminen. Nämä ovat kaksi tärkeintä ulotteisuuden pienentämisen kategoriaa. Väitöskirjassa kehitetyt usean vastemuuttujan regressiomenetelmät tarjoavat pienin muunnoksin uudenlaisen lähestymistavan näihin ohjaamattoman oppimisen ongelmiin, mikä on tärkeä työn kontribuutio. Kolmas tulosten ryhmä koostuu itseorganisoivan kartan (SOM) laajennuksista ja sovelluksista. SOM on käyttökelpoinen työkalu moniulotteisen tietoaineiston alustavassa, tutkiskelevassa analyysissä. Se tuottaa tietoaineistolle ryhmittelyn ja havainnollisen, matalaulotteisen esitysmuodon. Ensiksi väitöskirjassa esitetään SOM:n laajennus, joka soveltuu erityisesti voimakkaasti kaarevien tai mutkikkaiden mutta sisäisesti matalaulotteisten rakenteiden analysointiin tietoaineistossa. Toiseksi esitetään SOM:n sovellus, joka helpottaa epälineaaristen kvantiiliregressiomallien tulkintaa. Kolmanneksi esitetään SOM-pohjainen menetelmä, jolla voidaan tutkia moniulotteisen tietoaineiston riippuvuuksia jostakin toisesta moniulotteisesta aineistosta. fi
dc.format.extent 62, [69]
dc.format.mimetype application/pdf
dc.language.iso en en
dc.publisher Helsinki University of Technology en
dc.publisher Teknillinen korkeakoulu fi
dc.relation.ispartofseries Dissertations in Computer and Information Science. Report D en
dc.relation.ispartofseries 22 en
dc.relation.haspart Timo Similä and Sampsa Laine (2005). Visual approach to supervised variable selection by self-organizing map, International Journal of Neural Systems 15 (1-2): 101-110.
dc.relation.haspart Timo Similä (2005). Self-organizing map learning nonlinearly embedded manifolds, Information Visualization 4 (1): 22-31. [article2.pdf] © 2005 Palgrave Macmillan. By permission.
dc.relation.haspart Timo Similä and Jarkko Tikka (2005). Multiresponse sparse regression with application to multidimensional scaling, in W. Duch, J. Kacprzyk, E. Oja and S. Zadrozny (eds), Proceedings of the 15th International Conference on Artificial Neural Networks: Formal Models and Their Applications - ICANN 2005, Part II, Springer, Lecture Notes in Computer Science, Vol. 3697, pp. 97-102. [article3.pdf] © 2005 Springer Science+Business Media. By permission.
dc.relation.haspart Timo Similä (2006). Self-organizing map visualizing conditional quantile functions with multidimensional covariates, Computational Statistics & Data Analysis 50 (8): 2097-2110.
dc.relation.haspart Timo Similä and Jarkko Tikka (2006). Common subset selection of inputs in multiresponse regression, Proceedings of the 2006 IEEE International Joint Conference on Neural Networks - IJCNN 2006, pp. 1908-1915. [article5.pdf] © 2006 IEEE. By permission.
dc.relation.haspart Timo Similä (2007). Majorize-minimize algorithm for multiresponse sparse regression, Proceedings of the 32nd IEEE International Conference on Acoustics, Speech, and Signal Processing - ICASSP 2007, Vol. II, pp. 553-556. [article6.pdf] © 2007 IEEE. By permission.
dc.relation.haspart Timo Similä and Jarkko Tikka (2007). Input selection and shrinkage in multiresponse linear regression, Computational Statistics & Data Analysis 52 (1): 406-422. [article7.pdf] © 2007 Elsevier Science. By permission.
dc.subject.other Computer science en
dc.title Advances in variable selection and visualization methods for analysis of multivariate data en
dc.title Menetelmiä muuttujien valintaan ja informaation visualisointiin moniulotteisen tietoaineiston analysoinnissa fi
dc.type G5 Artikkeliväitöskirja fi
dc.description.version reviewed en
dc.contributor.department Department of Computer Science and Engineering en
dc.contributor.department Tietotekniikan osasto fi
dc.subject.keyword machine learning en
dc.subject.keyword dimensionality reduction en
dc.subject.keyword regression en
dc.subject.keyword information visualization en
dc.subject.keyword variable selection en
dc.subject.keyword koneoppiminen fi
dc.subject.keyword ulotteisuuden pienentäminen fi
dc.subject.keyword regressio fi
dc.subject.keyword informaation visualisointi fi
dc.subject.keyword muuttujien valinta fi
dc.identifier.urn urn:nbn:fi:tkk-010506
dc.type.dcmitype text en
dc.type.ontasot Väitöskirja (artikkeli) fi
dc.type.ontasot Doctoral dissertation (article-based) en
dc.contributor.lab Laboratory of Computer and Information Science en
dc.contributor.lab Informaatiotekniikan laboratorio fi


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

My Account