Variable Selection with the Delta Test in Theory and Practice
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Helsinki University of Technology |
Diplomityö
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2009
Major/Subject
Informaatiotekniikka
Mcode
T-115
Degree programme
Teknillisen fysiikan ja matematiikan tutkinto-ohjelma
Language
en
Pages
40 (+2)
Series
Abstract
The importance of variable selection procedures in non-linear regression analysis is becoming increasingly important as the size of data sets which can be gathered and handled continues to grow. In addition to reducing the size of the problem, variable selection can improve the performance of regression models by discarding noisy data. Furthermore, variable selection provides valuable interpretability of the data by specifying which variables are more relevant than others. This thesis assesses some of the currently available state-of-the-art methods and presents the use of the "Delta test" noise variance estimator for input variable selection. The use of the Delta test for variable selection is studied in a theoretical framework, and a theorem is derived which shows that, under reasonable assumptions, the expectation of the Delta test is minimised by the optimal selection of variables. The method is also analysed from a practical standpoint, including some simulated experiments to investigate its behaviour under specific conditions. The Delta test is compared to two alternative methods for variable selection: mutual information and least angle regression. The performance of each method when used with a Least Squares Support Vector Machines non-linear regression model is evaluated on a total of five real world data sets, and it is found that the Delta test excels on average. The conceptually simple and computationally efficient method outputs a good, model-independent selection of variables, and can consequently be considered a viable competitor among the currently commonly used methods.Muuttujien valinnan tärkeys epälineaarisessa regressioanalyysissä on korostunut kerättävissä ja käsiteltävissä olevan mittaustiedon koon kasvaessa. Mallintamistehtävän pelkistämisen lisäksi muuttujien valinta voi parantaa tehokkuutta erottamalla datasta kohinaa sisältäviä komponentteja. Lisäksi muuttujien valinta auttaa tulkitsemaan tietomäärää erittelemällä mitkä syötemuuttujat vaikuttavat tärkeimmiltä. Tässä diplomityössä katsastetaan alan kehityksen nykytasoa vastaavia menetelmiä, sekä esitellään kohinan varianssin estimointiin perustuvan "Deltatesti" -menetelmän soveltuvuutta muuttujien valintaan. Delta-testin käyttöä muuttujien valinnassa tutkitaan teoreettisella tasolla, ja johdetaan lause, joka kohtuullisten olettamusten alla osoittaa, että Delta-testin odotusarvon minimi saavutetaan optimaalisella valikoimalla muuttujia. Menetelmää tarkastetaan myös käytännön näkökulmasta, ja työssä esitellään simuloituja kokeita jotka havainnollistavat sen käyttäytymistä tietynlaisissa tilanteissa. Delta-testiä verrataan kahteen vaihtoehtoiseen menetelmään: keskinäinen informaatio (mutual information) sekä pienimmän kulman regressio (least angle regression). Menetelmien toimintaa vertaillaan viidessä eri mittauksiin perustuvassa mallinnusongelmassa käyttämällä epälineaarista pienimmän neliösumman tukivektorikoneiden (Least Squares Support Vector Machines) mallia. Tulosten perusteella Delta-testi suoriutuu keskimäärin parhaiten. Käsittellisesti yksinkertaista sekä laskennallisesti kevyttä menetelmää voidaan siten pitää varteenotettavana kilpailijana nykyisille yleisessä käytössä oleville menetelmilleDescription
Supervisor
Simula, OlliThesis advisor
Lendasse, AmauryKeywords
Delta test, Delta-testi, Delta-test, variable selection, muuttujien valinta, val av variabler, noise variance estimation, kohinan varianssin estimointi, brusvariansestimation, nearest neighbour, lähimmän naapurin menetelmä, närmastegrannemetod, non-linear regression, epälineaarinen regressio, icke-linjär regression