Learning Centre

Overfitting in feature selection: Pitfalls and solutions

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.advisor Corona, Francesco, Dr
dc.contributor.author Reunanen, Juha
dc.date.accessioned 2012-08-28T08:42:07Z
dc.date.available 2012-08-28T08:42:07Z
dc.date.issued 2012
dc.identifier.isbn 978-952-60-4516-0 (electronic)
dc.identifier.isbn 978-952-60-4515-3 (printed)
dc.identifier.issn 1799-4942 (electronic)
dc.identifier.issn 1799-4934 (printed)
dc.identifier.issn 1799-4934 (ISSN-L)
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/4830
dc.description.abstract When facing a typical pattern recognition task, one usually comes up with a number of so-called features: properties that describe the objects to be recognised. Based on these features, the task of the classifier building algorithm is to find useful rules that are suitable for the recognition of new objects. Feature selection is a process where one tries to identify the useful features from among a potentially large set of candidates. The task is notoriously hard, and researchers have been tackling it already for decades. Solving the problem properly might today be more important than ever before, because in many applications, dataset sizes seem to grow faster than does the processing power of computers. For example, in the domain of genetic microarray data, there can easily be thousands of features. Several research groups have published comparisons aiming to identify the feature selection method that is universally the best. Unfortunately, too often the way that such comparisons are done is just plain wrong. Based on the results of such studies, the computationally intensive search algorithms seem to perform much better than the simple approaches. However, it is shown in this thesis that when the comparison is done properly, it very often turns out that the simple and fast algorithms give results that are just as good, if not even better. In addition, many studies suggest that excluding some of the features is much more useful than it actually is. This observation is relevant in practice, because the selection process typically takes a lot of time and computing resources - therefore, it would be very convenient not to have to carry it out at all. This thesis shows that the benefits obtained may be negligible compared to what has been presented previously, provided that they are measured correctly. Moreover, the thesis presents a better-performing approach for accuracy estimation in case the amount of data is small. Further, extensions are discussed from feature selection to generic model selection, from the selection of individual features to that of sensors measuring the features, and from classification to regression. Finally, an industrial application is pointed out where the methods discussed prove useful. en
dc.description.abstract Hahmontunnistustehtävää ratkaistaessa määritetään yleensä joukko piirteitä eli ominaisuuksia, jotka kuvaavat tunnistettavia kohteita. Luokittelijan rakentavan algoritmin tehtävä on löytää näihin piirteisiin perustuvat säännöt, jotka soveltuvat uusien kohteiden luokitteluun. Piirrevalinnassa pyritään löytämään käyttökelpoiset piirteet mahdollisesti suuresta ehdokkaiden joukosta. Tehtävä on vaikea: sitä on yritetty ratkaista jo 1960-luvulta lähtien. Aihe on edelleen ajankohtainen, sillä aineistojen koot kasvavat monissa sovelluksissa jopa nopeammin kuin tietokoneiden laskentakapasiteetti. Esimerkiksi geneettisissä tutkimuksissa käytettävissä olevien piirteiden määrä nousee helposti tuhansiin. Monissa vertailevissa tutkimuksissa on pyritty löytämään paras piirrevalintamenetelmä, mutta vertailu on usein tehty väärin. Tällöin on saatu tuloksia, joiden mukaan raskaat hakualgoritmit tuottavat selvästi parempia tuloksia kuin mitä yksinkertaisilla ja nopeilla menetelmillä saadaan. Tässä väitöskirjassa osoitetaan, että raskaat ja hitaat algoritmit eivät välttämättä anna lainkaan parempia tuloksia, kunhan vertailu yksinkertaisiin menetelmiin tehdään oikeaoppisesti. Kirjallisuudessa annetaan myös ymmärtää piirrevalinnan olevan hyödyllisempää kuin mitä se todellisuudessa on. Tämä on käytännön sovellusten kannalta tärkeä havainto, sillä usein valintaprosessi vie paljon aikaa ja laskentaresursseja, joten olisi helpotus, jos sitä ei tarvitsisi lainkaan tehdä. Tässä työssä tuodaan esille, että piirrevalinnalla saavutetut hyödyt voivat olla suorastaan olemattomia kirjallisuudessa aiemmin esitettyyn verrattuna, mikäli mittaaminen suoritetaan oikein. Väitöskirjassa esitetään myös uusi tarkkuuden estimointiin soveltuva menettely, joka suoriutuu aikaisemmin tunnettuja menetelmiä paremmin silloin, kun dataa on vain vähän. Lisäksi käydään läpi laajennuksia piirrevalinnasta yleisempään mallinvalintaan, yksittäisten piirteiden valinnasta sensorien valintaan, sekä luokittelusta regressioon. Lopuksi käsitellään teollista sovellusta, jonka yhteydessä työssä esitellyt menetelmät osoittautuvat käyttökelpoisiksi. fi
dc.format.extent 136
dc.format.mimetype application/pdf
dc.language.iso en en
dc.publisher Aalto University en
dc.publisher Aalto-yliopisto fi
dc.relation.ispartofseries Aalto University publication series DOCTORAL DISSERTATIONS en
dc.relation.ispartofseries 19/2012
dc.relation.haspart [Publication 1]: Juha Reunanen (2003). Overfitting in Making Comparisons Between Variable Selection Methods. Journal of Machine Learning Research, volume 3, pp. 1371-1382.
dc.relation.haspart [Publication 2]: Juha Reunanen (2004). A Pitfall in Determining the Optimal Feature Subset Size. In A. Fred (Ed.), Proceedings of the Fourth International Workshop on Pattern Recognition in Information Systems (PRIS 2004), Porto, Portugal, April 13-14, pp. 176-185.
dc.relation.haspart [Publication 3]: Juha Reunanen (2006). Less Biased Measurement of Feature Selection Benefits. In C. Saunders, M. Grobelnik, S. Gunn, J. Shawe-Taylor (Eds.), Subspace, Latent Structure and Feature Selection: Statistical and Optimization Perspectives Workshop (SLSFS 2005), Revised Selected Papers (LNCS 3940), pp. 198-208.
dc.relation.haspart [Publication 4]: Juha Reunanen (2007). Model Selection and Assessment Using Cross-indexing. In J. Si, R. Sun, D. Brown, I. King, N. Kasabov (Eds.), Proceedings of the Twentieth International Joint Conference on Neural Networks (IJCNN 2007), Orlando, Florida, USA, August 12-17, pp. 2581-2585.
dc.relation.haspart [Publication 5]: Juha Reunanen, Mika Mononen, Marko Vauhkonen, Anssi Lehikoinen, and Jari P. Kaipio (2011). Machine Learning Approach for Locating Phase Interfaces Using Conductivity Probes. Inverse Problems in Science and Engineering, volume 19, issue 6, pp. 879-902.
dc.subject.other Computer science en
dc.title Overfitting in feature selection: Pitfalls and solutions en
dc.title Ylisovittuminen piirrevalinnassa: sudenkuoppia ja ratkaisuja fi
dc.type G5 Artikkeliväitöskirja fi
dc.contributor.school Perustieteiden korkeakoulu fi
dc.contributor.school School of Science en
dc.contributor.department Tietojenkäsittelytieteen laitos fi
dc.contributor.department Department of Information and Computer Science en
dc.subject.keyword machine learning en
dc.subject.keyword feature selection en
dc.subject.keyword variable selection en
dc.subject.keyword overfitting en
dc.subject.keyword search algorithms en
dc.subject.keyword comparison of algorithms en
dc.subject.keyword model selection en
dc.subject.keyword classification en
dc.subject.keyword regression en
dc.subject.keyword koneoppiminen fi
dc.subject.keyword piirrevalinta fi
dc.subject.keyword muuttujien valinta fi
dc.subject.keyword ylisovittuminen fi
dc.subject.keyword hakualgoritmit fi
dc.subject.keyword algoritmien vertailu fi
dc.subject.keyword mallin valinta fi
dc.subject.keyword luokittelu fi
dc.subject.keyword regressio fi
dc.identifier.urn URN:ISBN:978-952-60-4516-0
dc.type.dcmitype text en
dc.type.ontasot Doctoral dissertation (article-based) en
dc.type.ontasot Väitöskirja (artikkeli) fi
dc.contributor.supervisor Simula, Olli, Prof
dc.opn Ambroise, Christophe, Prof, Université d'Évry Val d'Essonne, France
dc.rev Smialowski, Pawel, Dr, Technische Universität München, Germany
dc.rev Torkkola, Kari, Dr, Amazon.com, USA
dc.date.defence 2012-03-30


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse