Using social media photo metadata for finding interesting places

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Insinööritieteiden korkeakoulu | Master's thesis
Date
2015-05-18
Department
Major/Subject
Geoinformatiikka
Mcode
M3002
Degree programme
Geomatiikan koulutusohjelma
Language
en
Pages
39 + 10
Series
Abstract
This thesis explores how geotagged social media photographs can be utilised for finding inter-esting places. More specifically, the goal is to find interesting places for tourists to visit. As modern mobile devices are equipped with high quality cameras and fast data connections, different photo sharing services have large collections of photos posted by users. This work employs and compares different clustering methods for mining data out of this large dataset. The two adopted clustering methods are K-Means and DJ-Cluster. Along with only spatially interesting places, the data was searched for places that are only seasonally interesting. The theoretical section of this thesis presents the necessary methods for finding these inter-esting places. All methods were implemented in Python environment as part of the research work and are presented in such detail to enable implementation by the reader. The most im-portant methods in this work are the two clustering methods, distance-based K-Means and density-based DJ-Cluster. Distance-based methods require that distances in all data-axes are comparable with each other. To enable this, a z-score normalization method is utilised. Z-score normalizes different numerical variables to an equal scale. Clustering also requires calculating the distances and averages for different variables. Traditional linear methods cannot be used with cyclical time. Thus, cyclical time is processed similarly to direction using unit vectors. The results of the research are intended to be also understandable for non-specialist users. To enable exploring of the results as easy as possible, a visualization system was built to for use in any internet browser. The data visualization aims to present every cluster’s most important spatiotemporal variables at a glance. To achieve this, the map symbol for clusters is a modified radar plot, which presents the amount of points in different months. The methods are applied to the 121 323 point sample dataset acquired from Flickr service. The dataset is located around Osaka, Japan. The clustering results are evaluated with both statistical and qualitative methods. The results indicate that DJ-Cluster is a far superior method for the goal of finding interesting places both spatially and temporally.

Tämä työ tutkii kuinka sosiaalisen median valokuvien paikkatietoa hyödyntämällä voidaan etsiä mielenkiintoisia paikkoja. Tarkemmin tavoitteena on löytää erityisesti turisteille mielenkiintoisia vierailukohteita. Koska nykyaikaisissa mobiililaitteissa on laadukas kamera ja nopeat datayhteydet, erilaisissa kuvapalveluissa on valtavat määrät käyttäjien ottamia valokuvia. Täs-sä työssä hyödynnetään ja vertaillaan klusterointimenetelmiä tiedon louhinnaksi tästä valta-vasta lähtöaineistosta. Työssä käytetyt klusterointimentelmät ovat K-Means ja DJ-Cluster. Pelkästään sijainniltaan mielenkiintoisten paikkojen lisäksi datasta etsitään paikkoja, jotka ovat mielenkiintoisia johonkin tiettyyn aikaan vuodesta. Työn teoreettisessa osassa esitellään tarpeelliset menetelmät kiinnostavien paikkojen löytämiseksi. Kaikki menetelmät implementoitiin Python-ympäristössä osana työtä ja esitellään tarvittavalla tarkkuudella, jotta lukija pystyisi implementoimaan menetelmät. Työn kannalta tärkeimmät käytetyt menetelmät ovat klusterointimenetelmät, etäisyysperusteinen K-Means ja tiheysperusteinen DJ-Cluster. Etäisyysperusteiset klusterointimenetelmät vaativat kaikkien eri data-akseleiden etäisyyksien olevan verrattavissa toisiinsa. Tätä varten käytetään z-score nor-malisointimenetelmää, jolla erilaiset numeeriset muuttujat voidaan muuttaa toisiinsa verrattavalle asteikolle. Klusterointia varten kaikkien arvojen etäisyyksiä ja keskiarvoja tulee pystyä laskemaan. Perinteiset lineaariset menetelmät eivät sovellu syklisille arvoille, joten aikaa käsitellään suunnan kaltaisesti yksikkövektoreita soveltaen. Työn lopputulokset ovat tarkoitettu myös alaan perehtymättömän käyttäjän tutkittavaksi. Jotta tulosten selaaminen olisi mahdollisimman esteetöntä, työn visualisointijärjestelmä rakennettiin toimimaan internetselaimessa. Visualisoinnissa pyritään esittämään tärkeimmät kluste-reiden spatiotemporaaliset arvot yhdellä vilkaisulla. Tätä varten kartalla esitetään tutkakaavi-on kaltaisella symbolilla kuinka paljon pisteitä klusterissa on kuukausittain. Työn menetelmiä sovelletaan Flickr-palvelusta hankittuun 121 323 pisteen esimerkkiaineis-toon. Aineisto sijoittuu Japaniin Osakan alueelle. Klusteroinnin tuloksia arvioidaan sekä laskennallisin mittarein, että laadullisin menetelmin. Tuloksista käy ilmi DJ-Cluster menetelmän olevan kiistattomasti tavoitteeseen paremmin soveltuva menetelmä.
Description
Supervisor
Virrantaus, Kirsi
Thesis advisor
Nikander, Jussi
Keywords
clustering, cyclical time, data mining, GIS, social media, visualization
Other note
Citation