Machine learning methods for incomplete data and variable selection

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Science | Doctoral thesis (article-based) | Defence date: 2014-10-17
Checking the digitized thesis and permission for publishing
Instructions for the author
Date
2014
Major/Subject
Mcode
Degree programme
Language
en
Pages
82 + app. 85
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 144/2014
Abstract
Machine learning is a rapidly advancing field. While increasingly sophisticated statistical methods are being developed, their use for concrete applications is not necessarily clear-cut. This thesis explores techniques to handle some issues which arise when applying machine learning algorithms to practical data sets. The focus is on two particular problems: how to effectively make use of incomplete data sets without having to discard samples with missing values, and how to select an appropriately representative set of variables for a given task. For tasks with missing values, distance estimation is presented as a new approach which would directly enable a large class of machine learning methods to be used. It is shown that the distance can be estimated reliably and efficiently, and experimental results are provided to support the procedure. The idea is studied both on a general level, as well as how to conduct the estimation with a Gaussian mixture model. The issue of variable selection is considered from the perspective of finding suitable criteria which are feasible to calculate and effective at distinguishing the most useful variables also for non-linear connections when limited data is available. Two alternatives are studied, the first being the Delta test, which is a noise variance estimator based on the nearest neighbour regression model. It is shown that the optimal selection of feature uniquely minimises the expectation of the estimator. The second method is a mutual information estimator based on a mixture of Gaussians. The procedure is based on a single mixture model which can be used to derive estimates for any subset of variables. This leads to congruous estimates for the mutual information of different variable sets, which can then be compared to each other in a meaningful way to find the optimal. The Gaussian mixture model proves to be a highly useful tool for several tasks, especially concerning data with missing values. In this thesis, it is used for distance estimation, time series modelling, and mutual information estimation for variable selection.

Maskininlärning är ett snabbt framåtgående forskningsområde. Samtidigt som allt mer avancerade statistiska metoder kommer fram, är deras tillämpning för konkreta användningsområden inte nödvändigtvis entydigt. Denna avhandling utforskar metoder för att hantera vissa problem som uppkommer vid tillämpning av maskininlärningsalgoritmer till praktiska datamängder. Tyngdpunkten ligger på två särskilda svårigheter: hur att effektivt utnyttja ofullständiga datamängder utan att lämna bort de datapunkter som saknar värden, och hur att välja en representativ grupp av attribut (variabler) för ett visst modelleringsuppdrag. För uppgifter med saknade värden, presenteras avståndsestimering som en ny strategi som direkt skulle möjliggöra användningen en stor mängd maskininlärningsmetoder. Det visar sig att det går att uppskatta avstånden tillförlitligt och kostnadeffektivt. Idén behandlas både på en allmän nivå och hur man utför estimeringen med en Gaussisk blandningsmodell. Frågan om attributval beaktas utgående från passliga kriterier som är lämpliga att beräkna och effektiva på att identifiera de mest användbara variablerna även för icke-linjära modeller och när den tillgängliga datamängden är begränsad. Två alternativ undersöks: den första är Delta-testet, baserad på den närmaste grannens regressionsanalys. Det visas att det optimala valet av variabler minimerar Delta-testets väntevärde. Den andra metoden är en estimator av ömsesidig information baserad på den Gaussiska blandningsmodellen. Tekniken använder sig av en enda blandningsmodell, som kan tillämpas för att härleda uppskattningar för diverse urval av variabler. Detta leder till motsvarande beräkningar av den ömsesidiga informationen för olika variabeluppsättningar, som sedan kan jämföras med varandra för att hitta den optimala. Den Gaussiska blandningsmodellen visar sig vara ett högt användbart redskap för flera tillfällen, särskilt angående data som saknar värden. I denna avhandling används den för avståndsestimering, modellering av tidsserier, och estimering av ömsesidig information för attributval.
Description
Supervising professor
Karhunen, Juha, Prof., Aalto University, Department of Information and Computer Science, Finland
Thesis advisor
Lendasse, Amaury, Dr., Aalto University, Department of Information and Computer Science, Finland
Keywords
machine learning, missing values, variable selection, Gaussian mixture model, mutual information, Delta test, maskininlärning, neuronnät, saknade värden, attributval, Gaussisk blandfördelning, ömsesidig information, Delta-testet
Other note
Parts
  • [Publication 1]: Emil Eirola, Gauthier Doquire, Michel Verleysen, and Amaury Lendasse. Distance Estimation in Numerical Data Sets with Missing Values. Information Sciences, volume 240, pages 115–128, 2013.
    DOI: 10.1016/j.ins.2013.03.043 View at publisher
  • [Publication 2]: Emil Eirola, Amaury Lendasse, Vincent Vandewalle and Christophe Biernacki. Mixture of Gaussians for distance estimation with missing data. Neurocomputing, volume 131, pages 32–42, 2014.
    DOI: 10.1016/j.neucom.2013.07.050 View at publisher
  • [Publication 3]: Qi Yu, Yoan Miche, Emil Eirola, Mark van Heeswijk, Eric Séverin, and Amaury Lendasse. Regularized Extreme Learning Machine For Regression with Missing Data. Neurocomputing, volume 102, pages 45–51, 2013.
    DOI: 10.1016/j.neucom.2012.02.040 View at publisher
  • [Publication 4]: Emil Eirola and Amaury Lendasse. Gaussian Mixture Models for Time Series Modelling, Forecasting, and Interpolation. In Advances in Intelligent Data Analysis XII – 12th International Symposium (IDA 2013), LNCS volume 8207, pages 162–173, October 2013.
    DOI: 10.1007/978-3-642-41398-8_15 View at publisher
  • [Publication 5]: Emil Eirola, Amaury Lendasse, and Juha Karhunen. Variable Selection for Regression Problems Using Gaussian Mixture Models to Estimate Mutual Information. In The 2014 International Joint Conference on Neural Networks (IJCNN 2014), pages 1606–1613, July 2014.
    DOI: 10.1109/IJCNN.2014.6889561 View at publisher
  • [Publication 6]: Emil Eirola, Elia Liitiäinen, Amaury Lendasse, Francesco Corona, and Michel Verleysen. Using the Delta test for variable selection. In European Symposium on Artificial Neural Networks (ESANN 2008), pages 25–30, April 2008.
  • [Publication 7]: Emil Eirola, Amaury Lendasse, Francesco Corona, and Michel Verleysen. The Delta Test: The 1-NN Estimator as a Feature Selection Criterion. In The 2014 International Joint Conference on Neural Networks (IJCNN 2014), pages 4214–4222, July 2014.
    DOI: 10.1109/IJCNN.2014.6889560 View at publisher
Citation