Methodologies for time series prediction and missing value imputation

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.advisor Lendasse, Amaury, Doc.
dc.contributor.author Sorjamaa, Antti
dc.date.accessioned 2012-12-18T09:30:20Z
dc.date.available 2012-12-18T09:30:20Z
dc.date.issued 2010
dc.identifier.isbn 978-952-60-3453-9 (electronic)
dc.identifier.isbn 978-952-60-3452-2 (printed)
dc.identifier.issn 1797-5069 (electronic)
dc.identifier.issn 1797-5050 (printed)
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/6321
dc.description.abstract The amount of collected data is increasing all the time in the world. More sophisticated measuring instruments and increase in the computer processing power produce more and more data, which requires more capacity from the collection, transmission and storage. Even though computers are faster, large databases need also good and accurate methodologies for them to be useful in practice. Some techniques are not feasible to be applied to very large databases or are not able to provide the necessary accuracy. As the title proclaims, this thesis focuses on two aspects encountered with databases, time series prediction and missing value imputation. The first one is a function approximation and regression problem, but can, in some cases, be formulated also as a classification task. Accurate prediction of future values is heavily dependent not only on a good model, which is well trained and validated, but also preprocessing, input variable selection or projection and output approximation strategy selection. The importance of all these choices made in the approximation process increases when the prediction horizon is extended further into the future. The second focus area deals with missing values in a database. The missing values can be a nuisance, but can be also be a prohibiting factor in the use of certain methodologies and degrade the performance of others. Hence, missing value imputation is a very necessary part of the preprocessing of a database. This imputation has to be done carefully in order to retain the integrity of the database and not to insert any unwanted artifacts to aggravate the job of the final data analysis methodology. Furthermore, even though the accuracy is always the main requisite for a good methodology, computational time has to be considered alongside the precision. In this thesis, a large variety of different strategies for output approximation and variable processing for time series prediction are presented. There is also a detailed presentation of new methodologies and tools for solving the problem of missing values. The strategies and methodologies are compared against the state-of-the-art ones and shown to be accurate and useful in practice. en
dc.description.abstract Maailmassa tuotetaan koko ajan enemmän ja enemmän tietoa. Kehittyneemmät mittalaitteet, nopeammat tietokoneet sekä kasvaneet siirto- ja tallennuskapasiteetit mahdollistavat suurien tietomassojen keräämisen, siirtämisen ja varastoinnin. Vaikka tietokoneiden laskentateho kasvaa jatkuvasti, suurten tietoaineistojen käsittelyssä tarvitaan edelleen hyviä ja tarkkoja menetelmiä. Kaikki menetelmät eivät sovellu valtavien aineistojen käsittelyyn tai eivät tuota tarpeeksi tarkkoja tuloksia. Tässä työssä keskitytään kahteen tärkeään osa-alueeseen tietokantojen käsittelyssä: aikasarjaennustamiseen ja puuttuvien arvojen täydentämiseen. Ensimmäinen näistä alueista on regressio-ongelma, jossa pyritään arvioimaan aikasarjan tulevaisuutta edeltävien näytteiden pohjalta. Joissain tapauksissa regressio-ongelma voidaan muotoilla myös luokitteluongelmaksi. Tarkka aikasarjan ennustaminen on riippuvainen hyvästä ja luotettavasta ennustusmallista. Malli on opetettava oikein ja sen oikeellisuus ja tarkkuus on varmistettava. Lisäksi aikasarjan esikäsittely, syötemuuttujien valinta- tai projektiotapa sekä ennustusstrategia täytyy valita huolella ja niiden soveltuvuus mallin yhteyteen on varmistettava huolellisesti. Tehtyjen valintojen tärkeys kasvaa entisestään mitä pidemmälle tulevaisuuteen ennustetaan. Toinen tämän työn osa-alue käsittelee puuttuvien arvojen ongelmaa. Tietokannasta puuttuvat arvot voivat heikentää data-analyysimenetelmän tuottamia tuloksia tai jopa estää joidenkin menetelmien käytön, joten puuttuvien arvojen arviointi ja täydentäminen esikäsittelyn osana on suositeltavaa. Täydentäminen on kuitenkin tehtävä harkiten, sillä puutteellinen täydentäminen johtaa hyvin todennäköisesti epätarkkuuksiin lopullisessa käyttökohteessa ja ei-toivottuihin rakenteisiin tietokannan sisällä. Koska kyseessä on esikäsittely, eikä varsinainen datan hyötykäyttö, puuttuvien arvojen täydentämiseen käytetty laskenta-aika tulisi minimoida säilyttäen laskentatarkkuus. Tässä väitöskirjassa on esitelty erilaisia tapoja ennustaa pitkän ajan päähän tulevaisuuteen ja keinoja syötemuuttujien valintaan. Lisäksi uusia menetelmiä puuttuvien arvojen täydentämiseen on kehitetty ja niitä on vertailtu olemassa oleviin menetelmiin. fi
dc.format.extent 73 + app.19
dc.format.mimetype application/pdf
dc.language.iso en en
dc.publisher Multiprint en
dc.relation.ispartofseries TKK Dissertations in Information and Computer Science en
dc.relation.ispartofseries D 21
dc.relation.haspart [Publication 1]: Antti Sorjamaa, Jin Hao, Nima Reyhani, Yongnan Ji, and Amaury Lendasse. 2007. Methodology for long-term prediction of time series. Neurocomputing, volume 70, numbers 16-18, pages 2861-2869.
dc.relation.haspart [Publication 2]: Antti Sorjamaa, Yoan Miche, Robert Weiss, and Amaury Lendasse. 2008. Long-term prediction of time series using NNE-based projection and OP-ELM. In: Proceedings of the 2008 IEEE International Joint Conference on Neural Networks (IJCNN 2008), part of the 5th IEEE World Congress on Computational Intelligence (WCCI 2008). Hong Kong. 1-6 June 2008. Chennai, India. Research Publishing Services. Pages 2675-2681. ISBN 978-1-4244-1821-3.
dc.relation.haspart [Publication 3]: Antti Sorjamaa and Amaury Lendasse. 2006. Time Series Prediction using DirRec Strategy. In: Michel Verleysen (editor). Proceedings of the 14th European Symposium on Artificial Neural Networks (ESANN 2006). Bruges, Belgium. 26-28 April 2006. Bruges, Belgium. d-side publications. Pages 143-148. ISBN 2-930307-06-4.
dc.relation.haspart [Publication 4]: Souhaib Ben Taieb, Antti Sorjamaa, and Gianluca Bontempi. 2010. Multiple-output modeling for multi-step-ahead time series forecasting. Neurocomputing, volume 73, numbers 10-12, pages 1950-1957.
dc.relation.haspart [Publication 5]: Antti Sorjamaa, Amaury Lendasse, Yves Cornet, and Eric Deleersnijder. 2010. An improved methodology for filling missing values in spatiotemporal climate data set. Computational Geosciences, volume 14, number 1, pages 55-64.
dc.relation.haspart [Publication 6]: Antti Sorjamaa, Paul Merlin, Bertrand Maillet, and Amaury Lendasse. 2009. A non-linear approach for computing missing values in temporal databases. European Journal of Economic and Social Systems, volume 22, number 1, pages 99-117.
dc.relation.haspart [Publication 7]: Antti Sorjamaa and Amaury Lendasse. 2007. Time series prediction as a problem of missing values: Application to ESTSP2007 and NN3 competition benchmarks. In: Proceedings of the 2007 International Joint Conference on Neural Networks (IJCNN 2007). Orlando, Florida, USA. 12-17 August 2007. Eau Claire, Wisconsin, USA. Documation LLC. Pages 2948-2953. ISBN 1-4244-1380-X.
dc.relation.haspart [Publication 8]: Paul Merlin, Antti Sorjamaa, Bertrand Maillet, and Amaury Lendasse. 2010. X-SOM and L-SOM: A double classification approach for missing value imputation. Neurocomputing, volume 73, numbers 7-9, pages 1103-1108.
dc.relation.haspart [Publication 9]: Antti Sorjamaa, Francesco Corona, Yoan Miche, Paul Merlin, Bertrand Maillet, Eric Séverin, and Amaury Lendasse. 2009. Sparse linear combination of SOMs for data imputation: Application to financial database. In: José C. Príncipe and Risto Miikkulainen (editors). Proceedings of the 7th International Workshop on Advances in Self-Organizing Maps (WSOM 2009). St. Augustine, Florida, USA. 8-10 June 2009. Berlin, Heidelberg, Germany. Springer. Lecture Notes in Computer Science, volume 5629, pages 290-297. ISBN 978-3-642-02396-5.
dc.relation.haspart [Publication 10]: Antti Sorjamaa and Amaury Lendasse. 2010. Fast missing value imputation using ensemble of SOMs. Espoo, Finland: Aalto University School of Science and Technology. 20 pages. TKK Reports in Information and Computer Science, Report TKK-ICS-R33. ISBN 978-952-60-3247-4. ISSN 1797-5034.
dc.subject.other Computer science en
dc.title Methodologies for time series prediction and missing value imputation en
dc.type G5 Artikkeliväitöskirja fi
dc.contributor.school Perustieteiden korkeakoulu fi
dc.contributor.school School of Science en
dc.contributor.department Tietojenkäsittelytieteen laitos fi
dc.contributor.department Department of Information and Computer Science en
dc.subject.keyword Time Series Prediction en
dc.subject.keyword Missing Values en
dc.subject.keyword Large Databases en
dc.subject.keyword Prediction Strategy en
dc.subject.keyword Variable Selection en
dc.subject.keyword Nonlinear Imputation en
dc.subject.keyword EOF Pruning, Ensemble of SOMs en
dc.subject.keyword aikasarjaennustaminen fi
dc.subject.keyword puuttuvien arvojen täydentäminen fi
dc.subject.keyword suuret tietojoukot fi
dc.subject.keyword ennustusstrategia fi
dc.subject.keyword muuttujien valinta fi
dc.subject.keyword Empiiristen ortogonaalifunktioiden valinta fi
dc.subject.keyword itseorganisoituvien karttojen yhdistelmä fi
dc.identifier.urn URN:ISBN:978-952-60-3453-9
dc.type.dcmitype text en
dc.type.ontasot Doctoral dissertation (article-based) en
dc.type.ontasot Väitöskirja (artikkeli) fi
dc.contributor.supervisor Simula, Olli, Prof.
dc.contributor.lab Faculty of Information and Natural Sciences en
dc.contributor.lab Informaatio- ja luonnontieteiden tiedekunta fi
dc.date.defence 2010-11-19


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

My Account