Error propagation in geographically weighted regression

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Engineering | Doctoral thesis (monograph) | Defence date: 2018-02-09

Date

2018

Major/Subject

Mcode

Degree programme

Language

en

Pages

181 + app. 18

Series

Aalto University publication series DOCTORAL DISSERTATIONS, 10/2018

Abstract

Geographically weighted regression (GWR) is a common method in the field of spatial statistics including a vast number of case studies and method development. Dealing with error in the input data has not drawn attention in previous research although no data set is truly error-free. The aim of this research is to study how input data error affects the results of GWR. This study develops a method to run error propagation in GWR. The method has four phases: Defining an original GWR model, calculating error distributions, performing error propagation with a Monte Carlo simulation and visualizing the results. Errors in position and attributes are modelled with normal distribution. A set of metrics has been developed to describe the results of a GWR analysis and these metrics are visualised to analyse the results of this research. A tool is created and published for other researchers who wish to apply the method to their case studies. The method has been applied to three case studies, which include one artificial and two real world data sets. The first case includes different types and magnitudes of error, including spatially autocorrelated error, to analyse error propagation with a controlled data set and GWR model. The error distributions for the other two cases have been derived from metadata, and the effect of the errors on the original GWR analysis is studied. Results of this study show that error has a small effect on the results of GWR; the larger the errors are, the bigger the effect is. Generally, errors decrease the explanatory power of the GWR model and the significance of regression coefficients. If the errors are spatially autocorrelated, results have more variation than with random errors. Positional accuracy has barely any effect on the results of GWR; attribute accuracy influences more. Some results vary in different case studies, so the users of GWR are encouraged to apply the developed method to different data sets and cases. This research aims to create an easy-to-use error button for GWR. Thus, some choices regarding the error model, GWR process and the developed tool have been simplified. Topics for future research include further development of the method and the tool, analysis with more case studies, as well as sensitivity analysis and a measurement error model for GWR. This study concludes that users of GWR should be aware of the accuracy of the data set. The developed method and tool can be used to analyse how the errors affect the results of GWR. The scientific contribution in the field of error propagation is the use of metrics to describe the results of a complex analysis process; this approach enables the use of simulation as an error propagation method.

Maantieteellisesti painotettu regressio (GWR) on yleisesti käytetty spatiotilastollinen menetelmä. Menetelmää on käytetty lukuisissa tapaustutkimuksissa ja kehitetty eteenpäin. Lähtöaineiston virheiden käsittelyä ei ole tutkittu aiemmin kirjallisuudessa, vaikka mikään aineisto ei ole virheetöntä. Tämän tutkimuksen tavoite on tutkia, kuinka lähtöaineiston virheet vaikuttavat GWR:n tuloksiin. Tässä tutkimuksessa on kehitetty menetelmä, jolla voidaan analysoida virheen kasautumista GWR:ssä. Menetelmässä on neljä vaihetta: Alkuperäisen GWR-mallin määrittely, virhejakaumien laskenta, virheen kasautuminen Monte Carlo -simuloinnilla ja tulosten visualisointi. Virheet sijainnissa ja ominaisuuksissa on mallinnettu normaalijakaumalla. Joukko metriikoita on valittu kuvaamaan GWR-analyysin tuloksia, ja visualisoimalla näitä metriikoita voidaan analysoida tutkimuksen tuloksia. Työkalu on kehitetty ja julkaistu, jotta menetelmää voidaan hyödyntää muissa tapaustutkimuksissa. Työssä esitellään kolme tapaustutkimusta, joista yhdessä on käytössä keinotekoinen ja kahdessa todellisuutta kuvaava aineisto. Ensimmäisessä tapauksessa tutkitaan erityyppisten ja -kokoisten, mukaan lukien autokorreloituneiden, virheiden kasautumista kontrolloidulla aineistolla ja GWR-mallilla. Kahden muun tapauksen virheiden jakaumat on johdettu metadatasta, ja virheiden vaikutus alkuperäiseen GWR-analyysiin on tutkittu. Työn tulokset osoittavat, että virheillä on jonkin verran vaikutusta GWR:n tuloksiin; mitä suurempia virheet ovat, sitä suurempi on vaikutus. Yleisesti virheet pienentävät GWR-mallin selitysastetta ja regressiokertoimien merkittävyyttä. Jos virheet ovat spatiaalisesti autokorreloituneita, tuloksissa on suurempaa vaihtelua kuin satunnaisilla virheillä. Sijaintitarkkuudella ei ole juurikaan vaikutusta GWR:n tuloksiin; attribuuteilla taas on suurempi vaikutus. Osa tuloksista vaihtelee eri tapaustutkimuksissa, joten GWR:n käyttäjien kannattaa soveltaa kehitettyä menetelmää eri aineistoille ja tapauksille. Tässä tutkimuksessa on pyritty kehittämään suhteellisen helppokäyttöinen työkalu virheen käsittelyyn GWR:ssä. Siten joitain valintoja on yksinkertaistettu liittyen virhemalliin, GWR-prosessiin ja kehitettyyn työkaluun. Jatkotutkimustarpeita ovat menetelmän ja työkalun jatkokehitys, menetelmän soveltaminen suurempaan määrään tapaustutkimuksia sekä herkkyysanalyysi ja virheet huomioivan GWR:n kehitys. Tässä tutkimuksessa todetaan, että GWR:n käyttäjien tulisi huomioida lähtöaineistojen tarkkuus. Kehitetyllä menetelmällä sekä työkalulla voidaan analysoida virheiden vaikutusta GWR:n tuloksiin. Metriikoiden käyttö monimutkaisen analyysin tuloksien kuvaamisessa on työn tieteellinen panos virheen kasautumisen tutkimukseen.

Description

Supervising professor

Virrantaus, Kirsi, Prof., Aalto University, Department of Built Environment, Finland

Thesis advisor

Demšar, Urška, Dr., University of St Andrews, UK

Keywords

geographically weighted regression, error propagation, Monte Carlo simulation, uncertainty, maantieteellisesti painotettu regressio, virheen kasautuminen, Monte Carlo -simulointi, epävarmuus

Other note

Citation