Machine learning methods for incomplete data and variable selection

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorLendasse, Amaury, Dr., Aalto University, Department of Information and Computer Science, Finland
dc.contributor.authorEirola, Emil
dc.contributor.departmentTietojenkäsittelytieteen laitosfi
dc.contributor.departmentDepartment of Information and Computer Scienceen
dc.contributor.labEnvironmental and Industrial Machine Learning Groupen
dc.contributor.labYmpäristön ja teollisuuden alojen koneoppiminenfi
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.schoolSchool of Scienceen
dc.contributor.supervisorKarhunen, Juha, Prof., Aalto University, Department of Information and Computer Science, Finland
dc.date.accessioned2014-09-25T08:03:51Z
dc.date.available2014-09-25T08:03:51Z
dc.date.dateaccepted2014-08-14
dc.date.defence2014-10-17
dc.date.issued2014
dc.description.abstractMachine learning is a rapidly advancing field. While increasingly sophisticated statistical methods are being developed, their use for concrete applications is not necessarily clear-cut. This thesis explores techniques to handle some issues which arise when applying machine learning algorithms to practical data sets. The focus is on two particular problems: how to effectively make use of incomplete data sets without having to discard samples with missing values, and how to select an appropriately representative set of variables for a given task. For tasks with missing values, distance estimation is presented as a new approach which would directly enable a large class of machine learning methods to be used. It is shown that the distance can be estimated reliably and efficiently, and experimental results are provided to support the procedure. The idea is studied both on a general level, as well as how to conduct the estimation with a Gaussian mixture model. The issue of variable selection is considered from the perspective of finding suitable criteria which are feasible to calculate and effective at distinguishing the most useful variables also for non-linear connections when limited data is available. Two alternatives are studied, the first being the Delta test, which is a noise variance estimator based on the nearest neighbour regression model. It is shown that the optimal selection of feature uniquely minimises the expectation of the estimator. The second method is a mutual information estimator based on a mixture of Gaussians. The procedure is based on a single mixture model which can be used to derive estimates for any subset of variables. This leads to congruous estimates for the mutual information of different variable sets, which can then be compared to each other in a meaningful way to find the optimal. The Gaussian mixture model proves to be a highly useful tool for several tasks, especially concerning data with missing values. In this thesis, it is used for distance estimation, time series modelling, and mutual information estimation for variable selection.en
dc.description.abstractMaskininlärning är ett snabbt framåtgående forskningsområde. Samtidigt som allt mer avancerade statistiska metoder kommer fram, är deras tillämpning för konkreta användningsområden inte nödvändigtvis entydigt. Denna avhandling utforskar metoder för att hantera vissa problem som uppkommer vid tillämpning av maskininlärningsalgoritmer till praktiska datamängder. Tyngdpunkten ligger på två särskilda svårigheter: hur att effektivt utnyttja ofullständiga datamängder utan att lämna bort de datapunkter som saknar värden, och hur att välja en representativ grupp av attribut (variabler) för ett visst modelleringsuppdrag. För uppgifter med saknade värden, presenteras avståndsestimering som en ny strategi som direkt skulle möjliggöra användningen en stor mängd maskininlärningsmetoder. Det visar sig att det går att uppskatta avstånden tillförlitligt och kostnadeffektivt. Idén behandlas både på en allmän nivå och hur man utför estimeringen med en Gaussisk blandningsmodell. Frågan om attributval beaktas utgående från passliga kriterier som är lämpliga att beräkna och effektiva på att identifiera de mest användbara variablerna även för icke-linjära modeller och när den tillgängliga datamängden är begränsad. Två alternativ undersöks: den första är Delta-testet, baserad på den närmaste grannens regressionsanalys. Det visas att det optimala valet av variabler minimerar Delta-testets väntevärde. Den andra metoden är en estimator av ömsesidig information baserad på den Gaussiska blandningsmodellen. Tekniken använder sig av en enda blandningsmodell, som kan tillämpas för att härleda uppskattningar för diverse urval av variabler. Detta leder till motsvarande beräkningar av den ömsesidiga informationen för olika variabeluppsättningar, som sedan kan jämföras med varandra för att hitta den optimala. Den Gaussiska blandningsmodellen visar sig vara ett högt användbart redskap för flera tillfällen, särskilt angående data som saknar värden. I denna avhandling används den för avståndsestimering, modellering av tidsserier, och estimering av ömsesidig information för attributval.sv
dc.format.extent82 + app. 85
dc.format.mimetypeapplication/pdfen
dc.identifier.isbn978-952-60-5871-9 (electronic)
dc.identifier.isbn978-952-60-5870-2 (printed)
dc.identifier.issn1799-4942 (electronic)
dc.identifier.issn1799-4934 (printed)
dc.identifier.issn1799-4934 (ISSN-L)
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/14040
dc.identifier.urnURN:ISBN:978-952-60-5871-9
dc.language.isoenen
dc.opnRossi, Fabrice, Prof., University Paris 1 Panthéon-Sorbonne, France
dc.publisherAalto Universityen
dc.publisherAalto-yliopistofi
dc.relation.haspart[Publication 1]: Emil Eirola, Gauthier Doquire, Michel Verleysen, and Amaury Lendasse. Distance Estimation in Numerical Data Sets with Missing Values. Information Sciences, volume 240, pages 115–128, 2013. DOI: 10.1016/j.ins.2013.03.043
dc.relation.haspart[Publication 2]: Emil Eirola, Amaury Lendasse, Vincent Vandewalle and Christophe Biernacki. Mixture of Gaussians for distance estimation with missing data. Neurocomputing, volume 131, pages 32–42, 2014. DOI: 10.1016/j.neucom.2013.07.050
dc.relation.haspart[Publication 3]: Qi Yu, Yoan Miche, Emil Eirola, Mark van Heeswijk, Eric Séverin, and Amaury Lendasse. Regularized Extreme Learning Machine For Regression with Missing Data. Neurocomputing, volume 102, pages 45–51, 2013. DOI: 10.1016/j.neucom.2012.02.040
dc.relation.haspart[Publication 4]: Emil Eirola and Amaury Lendasse. Gaussian Mixture Models for Time Series Modelling, Forecasting, and Interpolation. In Advances in Intelligent Data Analysis XII – 12th International Symposium (IDA 2013), LNCS volume 8207, pages 162–173, October 2013. DOI: 10.1007/978-3-642-41398-8_15
dc.relation.haspart[Publication 5]: Emil Eirola, Amaury Lendasse, and Juha Karhunen. Variable Selection for Regression Problems Using Gaussian Mixture Models to Estimate Mutual Information. In The 2014 International Joint Conference on Neural Networks (IJCNN 2014), pages 1606–1613, July 2014. DOI: 10.1109/IJCNN.2014.6889561
dc.relation.haspart[Publication 6]: Emil Eirola, Elia Liitiäinen, Amaury Lendasse, Francesco Corona, and Michel Verleysen. Using the Delta test for variable selection. In European Symposium on Artificial Neural Networks (ESANN 2008), pages 25–30, April 2008.
dc.relation.haspart[Publication 7]: Emil Eirola, Amaury Lendasse, Francesco Corona, and Michel Verleysen. The Delta Test: The 1-NN Estimator as a Feature Selection Criterion. In The 2014 International Joint Conference on Neural Networks (IJCNN 2014), pages 4214–4222, July 2014. DOI: 10.1109/IJCNN.2014.6889560
dc.relation.ispartofseriesAalto University publication series DOCTORAL DISSERTATIONSen
dc.relation.ispartofseries144/2014
dc.revGuillén, Alberto, Assoc. Prof., University of Granada, Spain
dc.revHammer, Barbara, Prof. Dr., Bielefeld University, Germany
dc.subject.keywordmachine learningen
dc.subject.keywordmissing valuesen
dc.subject.keywordvariable selectionen
dc.subject.keywordGaussian mixture modelen
dc.subject.keywordmutual informationen
dc.subject.keywordDelta testen
dc.subject.keywordmaskininlärningsv
dc.subject.keywordneuronnätsv
dc.subject.keywordsaknade värdensv
dc.subject.keywordattributvalsv
dc.subject.keywordGaussisk blandfördelningsv
dc.subject.keywordömsesidig informationsv
dc.subject.keywordDelta-testetsv
dc.subject.otherComputer scienceen
dc.titleMachine learning methods for incomplete data and variable selectionen
dc.titleMetoder för ofullständiga datamängder och attributval i maskininlärningsv
dc.typeG5 Artikkeliväitöskirjafi
dc.type.dcmitypetexten
dc.type.ontasotDoctoral dissertation (article-based)en
dc.type.ontasotVäitöskirja (artikkeli)fi
local.aalto.digiauthask
local.aalto.digifolderAalto_64307

Files

Original bundle

Now showing 1 - 7 of 7
No Thumbnail Available
Name:
isbn9789526058719.pdf
Size:
829.19 KB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
article1.pdf
Size:
441.55 KB
Format:
Adobe Portable Document Format
Description:
submitted/preprint version
No Thumbnail Available
Name:
article2.pdf
Size:
382.83 KB
Format:
Adobe Portable Document Format
Description:
submitted/preprint version
No Thumbnail Available
Name:
article4.pdf
Size:
302.31 KB
Format:
Adobe Portable Document Format
Description:
submitted/preprint version
No Thumbnail Available
Name:
article5.pdf
Size:
250.22 KB
Format:
Adobe Portable Document Format
Description:
No Thumbnail Available
Name:
article6.pdf
Size:
517.35 KB
Format:
Adobe Portable Document Format
Description:
publishers version
No Thumbnail Available
Name:
article7.pdf
Size:
273.39 KB
Format:
Adobe Portable Document Format
Description:
submitted/preprint version