Undirected Graphical Models for Discovering Statistical Dependencies in Continuous Air Pollutant and Weather Data
No Thumbnail Available
Files
Palokangas_Meeri_2024.pdf (724.38 KB) (opens in new window)
Aalto login required (access for Aalto Staff only).
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2024-06-26
Department
Major/Subject
Matematiikka ja systeemitieteet
Mcode
SCI3029
Degree programme
Teknistieteellinen kandidaattiohjelma
Language
en
Pages
31
Series
Abstract
Graphical models are statistical models associated to graphs. They are used to depict statistical phenomena. This is done by associating variables to nodes in a graph and statistical dependencies between the variables to edges. This allows the depiction of a statistical model in a concise visual form. The study of these is based on the links between graph theory and probability theory. This thesis presents the Markov properties alongside the factorisation property for defining a graphical model. Markov properties define a set of conditional independent statements the factorisation property presents the joint probability function into clique-dependant density functions. Graphical models are widely used in statistical modeling and data-analysis for inferring the behaviour and properties of data following multivariate distribution. This inference can be done with a range of methods, and we investigate the results obtained by a stepwise penalised log-likelihood algorithm as well as the Graphical Lasso algorithm, where inference is done on the covariance matrix corresponding to the graph as a matrix-form optimisation problem. The thesis investigates how computational methods differ in producing undirected graphical models to depict statistical dependencies in air pollutant and weather data. We find that although both methods are effective and practical, resulting in consistent statistical findings in the data, the two computational methods differ in their tendencies to produce levels of detail in the graphs, as well as favouring certain variables as more or less central in the network produced. This implies a need for further research in algorithm selection with research goals in mind, even for well structured data.Markovin satunnaiskentät (tässä myös graafiset mallit) ovat tapa esittää tilastollisia muuttujia ja niiden välisiä riippuvuuksia visuaalisessa ja käsiteltävässä muodossa. Niiden tutkimus ja käyttö hyödyntää graafiteorian sovelluksia tilastotieteellisiin konsepteihin ja funktiohin, mahdollistaen näin tilastollisten mallien analysoinnin graafiteorian tekniikoiden avulla. Tämä opinnäytetyö esittelee graafisen mallin määrittelyn sekä Markovin ehtojen että mallin yhteisjakauman kautta. Graafisia malleja käytetään laajasti sovelluksissa aina tietojenkäsittelytieteistä luonnontieteiden kautta humanististiin aloihin. Mallien avulla on mahdollista tutkia suuristakin dataseteistä löytyviä riippuvuuksia, kuvata niitä intuitiivisesti, mahdollistaa tehokas kvalitatiivisen ja kvantitatiivisen analyysin prosessi ja tarjota yleiskuvaa tutkittavan ilmiön käyttäytymiseen. Tämä kandidaatintyö tutkii graafisten mallien inferenssiä ilmanlaatuja säädatasetistä kahden eri teknisen toteutuksen avulla. Ensinnäkin hyödynnetään asteittaista (engl. stepwise) metodia R-ohjelmointikielellä, joka potentiaalinen graafi kerrallaan optimoi penalisoitua uskottavuusfunktiota (engl. penalised log-likelihood) poistamalla tai lisäämällä verkosta kaaria. Lisäksi hyödynnetään Graphical Lasso -metodia, jossa optimointifunktion konveksisuutta hyödyntämällä optimoidaan matriisimuotoista yhtälöä ratkaisemalla verkkoa vastaavaa yhteisvarianssimatriisia. Tässä kandidaatintyössä selvitetään miten edellämainitut metodit eroavat graafisia malleja tuottaessaan. Työssä tuotetaan useita graafeja vastaamaan samaa dataa, ja niiden eroja analysoimalla luodaan käsitys laskennallisten metodien taipuvuuksista graafien inferenssissä. Kandidaatintyön löydöksissä esiintyy laajoja yhtäläisyyksiä kaikkien kehitettyjen mallien kesken, antaen kuvan kummankin metodin tehokkuudesta ja mielekkyydestä tällaisessa data-analyysissa. Kuitenkin löytyy myös merkittäviä eroja erityisesti graafien yksityiskohtaisuudessa, laskennallisten menetelmien taipuvuudessa sisällyttää tai poistaa kaaria. Lisäksi on löydettävissä eroja siinä, mitkä kaaret on sisällytetty minkäkin metodin johdosta. Tämä viittaa eri laskennallisten menetelmien painottavan eri muuttujia graafista mallia etsiessään. Eri laskennalliset tavat tuottavat eri ominaisuuksia graafisiin malleihin kautta linjan, vaikka tahoillaan luovatkin mielekkäitä kuvauksia datasetin ominaisuuksista. Tässä työssä korostetaan siis myös tarvetta monipuoliselle harkinnalle algoritmivalinnan suhteen data-analyysia tehdessä.Description
Supervisor
Kubjas, KaieThesis advisor
Kushnerchuk, NataliiaKeywords
graphical models, Markov random fields, graphical lasso, penalised log-likelihood estimation, statistical data analysis