Linear Relationships Between Time Series - a Case Study
No Thumbnail Available
Files
Aalto login required (access for Aalto Staff only).
Journal Title
Journal ISSN
Volume Title
Sähkötekniikan korkeakoulu |
Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Author
Date
2024-05-26
Department
Major/Subject
Bioinformaatioteknologia
Mcode
ELEC3016
Degree programme
Sähkötekniikan kandidaattiohjelma
Language
en
Pages
24+17
Series
Abstract
Time series observe how a variable evolves through time. Time series are in temporal order, which allows for the study of trends, cycles, seasonal variation and relationships between time series, which would not be apparent if the data was not ordered. This work aims to study the relationships between a specific group of time series and further analyze the linear relationship between a single pair. Found relationships between time series are beneficial for building improved predictive models and understanding the phenomena behind the data thoroughly. This thesis analyzed a set of nine time series. The aim of this work is to show how to find linear relationships between time series and assess the strength and reliability of this relationship. The relationship was explored with correlation and linear regression analysis. The reliability of the results was assessed with statistical inference. The confidence intervals for the regression coefficients were calculated by bootstrapping and statistical significance was tested with the permutation test. The variables were shown to have a clear linear dependency, but the strength of the relationship can be overestimated or underestimated. The standard assumptions of linear regression were not met as the residuals had clear autocorrelations. The estimates and results of inferential statistics can be biased or unstable. These methods were suitable for exploring linear relationships between time series, but the final model should not be used for prediction. Further study is needed.Aikasarja on aineisto, joka kuvaa, miten muuttuja kehittyy ajan suhteen. Ne ovat järjestetty aikajärjestykseen ja mittaukset tehdään säännöllisin aikavälein. Aikasarjat voivat kuvata esimerkiksi maapallon keskilämpötilaa, sademääriä tai pörssikursseja. Aikasarjojen välisiä suhteita on mahdollista analysoida perinteisillä data-analyysin menetelmillä. Aikasarjojen välillä voi olla tuntemattomia riippuvuussuhteita, joiden löytäminen parantaa ymmärrystä datasta sekä tosimaailman ilmiöstä aikasarjan taustalla. Löydettyjä riippuvuussuhteita voi käyttää myös parempien ennustavien mallien kehittämiseen. Lineaariset riippuvuussuhteet ovat pohja kehittyneemmälle analyysille ja approksimoivat myös monimutkaisia suhteita muuttujien välillä. Tämän työn tavoite on tutkia yhdeksää aikasarjaa, löytää lineaarinen riippuvuussuhde aikasarjaparin välillä ja arvioida suhteen luotettavuus. Lineaarinen riippuvuussuhde löytyy korrelaatioanalyysilla sekä lineaarisella regressioanalyysilla. Korrelaatiot lasketaan kaikkien muuttujien välillä ja näistä valitaan yksi pari tarkempaan analyysiin. Työssä valitaan yksi pari, jonka välinen korrelaatio on suuri, mutta analyysia voisi jatkaa muillakin pareilla. Valitun parin lineaarista riippuvuussuhdetta arvioidaan lineaarisella regressiolla. Lineaarinen regressio löytää tarkasteltavan vastemuuttujan ja selitettävän muuttujan välisen riippuvuuden. Vastemuuttujan ja selitettävän muuttujan välisen lineaarisen riippuvuussuhteen luotettavuus arvioidaan tilastollisella päättelyllä. Luotettavuuden arviointiin käytetään tilastollista merkitsevyystestiä ja luottamusvälien laskemista. Tilastollinen merkitsevyys arvioidaan permutaatiotestillä ja luottamusvälit saadaan bootstrap-menetelmällä. Näitä menetelmiä käytettiin, sillä virhetermit eivät olleet normaalijakautuneita. Työ osoitti, että edellä kuvatuilla menetelmillä löydetään merkitseviä suhteita, mutta lineaarinen regressio ei ole optimaalinen analyysimenetelmä käytetylle aineistolle. Lineaarisen regression tulokset olivat tilastollisesti merkitsevät, mutta lineaarisen regression oletukset eivät täyttyneet. Virhetermien välillä oli selkeitä autokorrelaatioita. Tämä viittaa siihen, että tulokset olivat harhaiset ja tilastollinen analyysi ei ollut luotettavaa. Aikasarjojen välinen suhde saattoi olla liioiteltu tai aliarvioitu. Muuttujien välillä todennäköisesti silti oli lineaarinen suhde, sillä se näkyy selkeästi hajautuskuvissa. Suhde oli myös vahva ja siihen ei vaikuttanut merkittävästi aikasarjojen käsittely. Aikasarjoista esimerkiksi poistettiin arvoja ja sen tilastollisia ominaisuuksia, kuten odotusarvoa ja varianssia tasattiin. Malli ei kuitenkaan tekisi luotettavia ennusteita ja sen arvioima suhteen vahvuus ei ole luotettava. Työ löysi vahvoja korrelaatioita eri muuttujien välillä ja lineaarisen riippuvuussuhteen tarkastellun aikasarjaparin välillä. Analysoitu suhde on lineaarinen, mutta sen vahvuudesta ei ole täysin luotettavaa tietoa. Tämän työn puitteissa tuloksia voi kuitenkin pitää tarpeeksi luotettavina. Nämä menetelmät sopivat hyvin muuttujien välisten suhteiden analyysiin ja tutkimukseen, mutta lineaarinen regressio ei ole suositeltava malli mahdollisten ennusteiden tekemiselle. Ennustamiseen parempia malleja olisi esimerkiksi koneoppimisalgoritmit, kuten neuroverkkoja tai aikasarjoille luodut menetelmät, kuten VAR (engl. vector autoregression) tai ARIMA (engl. autoregressive integrated moving average) malleja.Description
Supervisor
Turunen, MarkusThesis advisor
Jung, AlexanderKeywords
time series analysis, linear regression, correlation, linear relationship