HIP: Model Combination Algorithm for Location Prediction
No Thumbnail Available
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Authors
Date
2014-09-29
Department
Major/Subject
Informaatiotekniikka
Mcode
T3006
Degree programme
Tietotekniikan koulutusohjelma
Language
en
Pages
69
Series
Abstract
In this thesis a working proof of concept of an algorithm that utilizes multiple regression algo-rithms and their temporal prediction performance has been developed and analyzed. This framework was named history predictor (HIP). Analysis of the algorithm was based on a tem-poral-spatial data set over 87 persons' mobile location behavior. The overall subject is large to cover and therefore this study concentrated on developing an algorithm with simple 'de-faults' on cost of potentially better performance. The framework consisted of three distinct phases. First, data was processed to 67 statistical features by using a sliding window technique where each feature was generated over users' location history. Curve fitting and statistical properties were used to extract features from the source data. In the second phase preselected regression models were trained against the generated features. Third phase, multiple different selection layer implementations were tried and their performance was analyzed against each other and the base regression models. Part of the analysis was focused on the best selection layer and its performance with in depth analysis of its internals. It was found that HIP increased performance over a single predicting model. When compared to the best performing model, HIP gained relative improvement of 32 % on the hitrate performance compared against the best performing base model. This was verified with Wilcoxon signed rank test to be statistically significant. Therefore one can conclude that HIP should be considered a better approach for this data set and topic than using any of the trained regression models independently.Tämän opinnäytetyön tavoitteena oli luoda toimiva konsepti koneoppimisalgoritmista, joka pohjautuu joukkoon regressiomalleja joiden ennustuksen tarkkuutta lähihistoriassa hyödyn-nettiin ennustuksen parantamiseen. Analyysi tehtiin paikannustiedolla, jossa oli 87 eri käyttä-jän puhelimen liikehistoria pitkältä aikaväliltä. Kehitetty kehys sisälsi 3 erillistä vaihetta. Ensimmäisessä vaiheessa tietojoukolle tehtiin 67 piirteenirrotusta siirtyvällä aikaikkunatekniikalla. Piirteiden irrotuksessa käytettiin käyräsovi-tusta ja tiedon statistisien ominaisuuksien määrittelyä. Toisessa vaiheessa esivalitut regres-siomallit koulutettiin piirteitä vasten. Kolmannessa vaiheessa useita eri kombinaatiostrategioi-ta analysoitiin ja niitä verrattiin yksittäisiin koulutettuihin regressiomalleihin. Yhdistelmästrate-gioitten toiminnasta suoritettiin myös syväluotaava analyysi. Analyysissä selvisi, että kehys paransi ennustuksen osumatarkkuutta 32 % suhteessa yksit-täiseen parhaaseen regressiomalliin. Tuloksen tilastollinen merkittävyys vahvistettiin Wilco-xonin menetelmällä. Työn johtopäätöksenä voidaan todeta, että valittu lähestymistapa on parempi kuin mikään käytetyistä yksittäisistä regressiomalleista.Description
Supervisor
Oja, ErkkiThesis advisor
Aksela, MattiKeywords
predictive analysis, machine learning, mixture, geolocation, prediktiivinen mallintaminen, koneoppiminen, mikstuurimallit, paikkatieto