Bayesian Regression Techniques for High-Dimensional Financial Time Series Data Structures

Loading...
Thumbnail Image

Files

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.

Department

Major/Subject

Mcode

SCI3095

Language

en

Pages

35+3

Series

Abstract

As the world adpots a culture of data-driven decision-making, the number of high-dimensional datasets increases. However, high dimensionality might bring issues such as ill-posedness, conflated models, and overfitting, thus necessitating shrinkage methods to reduce the dimensionality by selecting or penalizing the utilized features. Analogously, this thesis aims to find the most impactful stocks in a high-dimensional portfolio. Previous research regarding this topic has explored portfolios, high-dimensionality, sparsity, and Bayesian methods. Nevertheless, the literature concentrating on Bayesian shrinkage for high-dimensional portfolio data, is limited. Hence, this thesis aims to uncover sparsity present in one of the most popular portfolios in the world, the S&P500. Moreover, the training dataset consists of daily observations regarding the S&P500 and its constituent stocks across the years [2018, 2022], while the validation set is for the year 2023 alone. As the chosen methodology two common shrinkage priors, horseshoe and spike-and-slab, are placed on the Bayesian regression model. Conducting the trials reveals, that spike-and-slab provides superior predictive power over horseshoe. Spike-and-slab requires 174 unique stock ticers, corresponding to 180 regressors, for adequate predictive power measured by adjusted coefficient of determination. The number of tickers could be researched through the selections made by credible intervals, however, they provide a lower bound for the number non-zero regressors required. Consequently, the contribution of this thesis is the uncovered sparsity in the S&P500 with Bayesian methods, along with a suggestion for the shrunk variable selection method by comparing the adjusted coefficient of determination and credible intervals.

Maailman omaksuvan dataan perustuvan päätöksenteon kulttuurin, korkeaulotteisten tietoaineistojen määrä kasvaa. Korkea ulottuvuus voi kuitenkin tuoda mukanaan hankaluuksia, kuten huonosti asetettuja ongelmia, paisuneita malleja ja ylisovittamista, mitkä tekevät kutistusmenetelmistä välttämättömiä ulottuvuuden pienentämiseksi valitsemalla tai rankaisemalla käytettyjä selittäviä muuttujia. Vastaavasti tämä tutkielma pyrkii löytämään merkittävimmät osakkeet korkeaulotteisessa portfoliossa. Aiempi tutkimus on tarkastellut portfolioita, korkeaulotteisuutta, harvuisuutta ja Bayesilaisia menetelmiä. Kuitenkin kirjallisuus, joka keskittyy Bayesilaiseen kutistamiseen korkeaulotteisessa portfolioissa, on rajallista. Siksi tämä tutkielma pyrkii paljastamaan harvuisuutta yhdessä maailman tunnetuimmista portfolioista, S&P500:ssa. Tutkimusaineisto koostuu päivittäisistä havainnoista S&P500:sta ja sen osakkeista vuosilta 2018–2022, kun taas validointiaineisto kattaa vuoden 2023. Valittuna menetelmänä käytetään kahta yleistä kutistusjakaumaa, hevosenkenkä ja piikki ja laattaa, Bayesilaisessa regressiomallissa. Kokeiden suorittaminen paljastaa, että piikki ja laatta tarjoaa paremman ennustetarkkuuden kuin hevosenkenkä. Piikki ja laattaa vaatii ainakin 174 yksittäistä osaketunnusta, jotka vastaavat 180 selittävää muuttujaa, riittävään ennustetarkkuuteen, jota mitataan säädetyllä selitysasteella. Osaketunnusten määrää voitaisiin tutkia uskottavuusväleillä tehtyjen valintojen perusteella, mutta ne antavat alarajan vaadittavien selittävien muuttujien määrälle. Tämän tutkielman kontribuutio on siis näin ollen Bayesilaisilla menetelmillä paljastettu harvuisuus S&P500:ssa sekä ehdotus kutistettuun muuttujavalintaan vertailemalla säädettyä selitysastetta ja uskottavuusvälejä.

Description

Supervisor

Korpi-Lagg, Maarit

Thesis advisor

Yılmaz, Ersin

Other note

Citation