Variable Selection with the Delta Test in Theory and Practice

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Helsinki University of Technology | Diplomityö

Date

2009

Major/Subject

Informaatiotekniikka

Mcode

T-115

Degree programme

Teknillisen fysiikan ja matematiikan tutkinto-ohjelma

Language

en

Pages

40 (+2)

Series

Abstract

The importance of variable selection procedures in non-linear regression analysis is becoming increasingly important as the size of data sets which can be gathered and handled continues to grow. In addition to reducing the size of the problem, variable selection can improve the performance of regression models by discarding noisy data. Furthermore, variable selection provides valuable interpretability of the data by specifying which variables are more relevant than others. This thesis assesses some of the currently available state-of-the-art methods and presents the use of the "Delta test" noise variance estimator for input variable selection. The use of the Delta test for variable selection is studied in a theoretical framework, and a theorem is derived which shows that, under reasonable assumptions, the expectation of the Delta test is minimised by the optimal selection of variables. The method is also analysed from a practical standpoint, including some simulated experiments to investigate its behaviour under specific conditions. The Delta test is compared to two alternative methods for variable selection: mutual information and least angle regression. The performance of each method when used with a Least Squares Support Vector Machines non-linear regression model is evaluated on a total of five real world data sets, and it is found that the Delta test excels on average. The conceptually simple and computationally efficient method outputs a good, model-independent selection of variables, and can consequently be considered a viable competitor among the currently commonly used methods.

Muuttujien valinnan tärkeys epälineaarisessa regressioanalyysissä on korostunut kerättävissä ja käsiteltävissä olevan mittaustiedon koon kasvaessa. Mallintamistehtävän pelkistämisen lisäksi muuttujien valinta voi parantaa tehokkuutta erottamalla datasta kohinaa sisältäviä komponentteja. Lisäksi muuttujien valinta auttaa tulkitsemaan tietomäärää erittelemällä mitkä syötemuuttujat vaikuttavat tärkeimmiltä. Tässä diplomityössä katsastetaan alan kehityksen nykytasoa vastaavia menetelmiä, sekä esitellään kohinan varianssin estimointiin perustuvan "Deltatesti" -menetelmän soveltuvuutta muuttujien valintaan. Delta-testin käyttöä muuttujien valinnassa tutkitaan teoreettisella tasolla, ja johdetaan lause, joka kohtuullisten olettamusten alla osoittaa, että Delta-testin odotusarvon minimi saavutetaan optimaalisella valikoimalla muuttujia. Menetelmää tarkastetaan myös käytännön näkökulmasta, ja työssä esitellään simuloituja kokeita jotka havainnollistavat sen käyttäytymistä tietynlaisissa tilanteissa. Delta-testiä verrataan kahteen vaihtoehtoiseen menetelmään: keskinäinen informaatio (mutual information) sekä pienimmän kulman regressio (least angle regression). Menetelmien toimintaa vertaillaan viidessä eri mittauksiin perustuvassa mallinnusongelmassa käyttämällä epälineaarista pienimmän neliösumman tukivektorikoneiden (Least Squares Support Vector Machines) mallia. Tulosten perusteella Delta-testi suoriutuu keskimäärin parhaiten. Käsittellisesti yksinkertaista sekä laskennallisesti kevyttä menetelmää voidaan siten pitää varteenotettavana kilpailijana nykyisille yleisessä käytössä oleville menetelmille

Description

Supervisor

Simula, Olli

Thesis advisor

Lendasse, Amaury

Keywords

Delta test, Delta-testi, Delta-test, variable selection, muuttujien valinta, val av variabler, noise variance estimation, kohinan varianssin estimointi, brusvariansestimation, nearest neighbour, lähimmän naapurin menetelmä, närmastegrannemetod, non-linear regression, epälineaarinen regressio, icke-linjär regression

Other note

Citation