Sparse log Gaussian process in spatial epidemiology
No Thumbnail Available
URL
Journal Title
Journal ISSN
Volume Title
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2006
Major/Subject
Computational engineering
Laskennallinen tekniikka
Laskennallinen tekniikka
Mcode
S-114
Degree programme
Elektroniikan ja sähkötekniikan koulutusohjelma
Language
en
Pages
91
Series
Abstract
Tässä diplomityössä esitetään hierarkinen Bayesilainen malli tautikartoituksen avuksi. Tautikartoitus on spatiaalisen epidemiologian osa-alue, jonka tavoitteena on tutkia terveysriskin maantieteellistä vaihtelua. Tavoitteena on kuvata taudin jakautumista kartalla ja korostaa alueita, joissa tauti- tai kuolemanriski ovat kohonneita. Tässä työssä käytetään kolmen hierarkiakerroksen mallia tutkimaan kuolleisuusriskin alueellisia vaihteluja kuolleisuusdatasta. Kuolleisuus tietyllä alueella mallinnetaan Poissonin prosessilla, jonka odotusarvo saadaan vakioidun kuolleisuusriskin ja suhteellisen riskin tulona. Kuolleisuusriski vakioidaan taustapopulaation ikä-, sukupuoli- ja koulutustasojakauman avulla. Suhteellisen riskin logaritmille annetaan prioriksi Gaussinen prosessi, joka tasoittaa riskipintaa ja lisää alueiden väliset korrelaatiot malliin. Gaussisen prosessin ongelmaksi muodostuu kovarianssimatriisin inversioon tarvittava aika, jota pienennetään tekemällä Gaussiselle prosessille harva aproksimaatio. Spatiaalisessa epidemiologiassa on tärkeää pystyä määrittämään tautiriskin alueellisen vaihtelun tilastollinen merkittävyys. Jotta mallin epävarmuusestimaateille saataisiin mahdollisimman hyvät arviot suoritetaan mallin parametrien ylitse integrointi Markov ketju Monte Carlo menetelmiä käyttäen. Gaussisen prosessin latenttien muuttujien näytteistämistä nopeutetaan muunnoksella, joka käyttää hyväkseen posteriorijakauman kovarianssin aproksimaatiota. Markov-ketju-näytteistäminen suoritetaan hybrid Monte Carlo -menetelmällä, jonka oleellinen osa on marginaaliuskottavuuden logaritmin gradienttien laskenta. Harvan aproksimaation tapauksessa gradientit lasketaan muodostamatta eksplisiittisesti täyttä kovarianssimatriisia. Työ esittelee latenttien muuttujien muunnoksen ja gradienttien laskennan toteutukset. Täyttä ja harvaa Gaussista prosessia käyttäviä malleja testataan kahteen kuolemansyydataan neljällä eri kovarianssifunktiolla, ja malleja verrataan keskenään käyttäen DIC-informaatiokriteeriä. Kuolemansyydatan analyysin tulokset esitetään kuolemanriskikarttoina.This thesis presents a hierarchical Bayesian model for disease mapping methodology. Disease mapping studies comprise spatial epidemiological methods to summarize the spatial variations in the incidence rate of diseases. The aim is to describe the overall disease distribution on a map and highlight areas of elevated or lowered mortality or morbidity risk. In this work, a three level hierarchical model is build to study the spatial variations in the relative mortality risk in an areally referenced health-care data. The mortality in an area is modeled as a Poisson process with mean intensity surface, which is a product of a standardized expected number of deaths and a relative risk. The expected number of deaths is evaluated using an age, gender and scholarly degree standardization. The logartihm of the relative risk is given a Gaussian process prior, which smoothes the risk surface and includes the spatial correlation between areas in the model. A problem in Gaussian processes is the computational burden of the required covariance matrix inversion. To overcome the computational problem a fully independent conditional sparse approximation is used. In spatial epidemiology it is very important to have good estimates whether the spatial variation is significant. To set a golden standard for the uncertainty estimates, both the hyperparameters and the latent values of Gaussian process are marginalized out using Markov chain Monte Carlo methods. The sampling of the latent values is sped up with transformations taking into account the approximate conditional posterior covariance. The sampling is conducted using hybrid Monte Carlo methods which require the gradients of the logarithm of marginal likelihood. The gradients of the sparse approximation are evaluated without forming the full covariance matrix. The work presents an implementation of the gradients and the transformation of latent values for the sparse approximation. The full and sparse Gaussian models, with four different covariance functions, are applied for two mortality data sets. The models are compared to each others with deviance information criterion and the results of the analysis are presented with maps revealing the relative risk.Description
Supervisor
Lampinen, Jouko; Prof.Thesis advisor
Vehtari, Aki; TkTKeywords
spatial epidemiology, disease mapping, sparse Gaussian process, Bayesian inference, alueellinen epidemiologia, tautikartoitus, harva Gaussinen prosessi, Bayesilainen päättely