Financial portfolio management with evolution strategies-based reinforcement learning

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Business | Master's thesis

Date

2021

Major/Subject

Mcode

Degree programme

Information and Service Management (ISM)

Language

en

Pages

75+7

Series

Abstract

In Reinforcement Learning, an algorithmic agent learns to execute actions in environment by interaction and reinforcement. The action points given by environment are called states in which agent can execute some action to maximize its reward function. Reinforcement Learning usually integrate Artificial Neural Networks as function approximators. Neural networks are usually trained with a technique called backpropagation which includes gradient calculation over parameters of the network. An alternative method for tuning the network parameters based on evolutionary computing is Evolution Strategies, which is based on random sampling around the search parameters in order to find better solutions over generations. Financial Portfolio Management is a process in which an investor tries to allocate capital to some set of investment options to maximize the investment objective. This study implements Evolution Strategies Based Reinforcement Learning agent for financial portfolio management problem to dynamically allocate portfolio weights daily for given set of assets. The study is conducted as an empirical study in two different asset classes; ETFs from Pacific Exchange and stocks from OMX Helsinki Exchange. This study concludes that the portfolio management agent can execute profitable and competitive policies in both in and out-of-sample period. All versions of the algorithms perform well against the benchmarks beating almost all benchmarks and having at least similar or better performance than the S&P500 following ETF in Pacific Exchange portfolio case. However, the profit maximizing objective function exposes the agent’s portfolio to risk meaning higher volatility, Value-at-Risk and Condition Value-at-Risk than benchmarks which might lead to huge losses and fluctuations in portfolio value.

Vahvistusoppimisessa agentti pyrkii ratkaisemaan ongelmaympäristön suorittamalle toimia, joiden perusteella ympäristö palauttaa agentille palkkion tai rangaistuksen riippuen toimenpiteestä ja tästä johtuvasta ympäristön muutoksesta. Agentin tavoite on maksimoida ajan saatossa kertyvä kumulatiivinen palkkio. Vahvistusoppimisessa hyödynnetään usein keinotekoisia neuroverkkoja. Neuroverkkojen parametreja tyypillisesti säädetään takaisinsyöttömenetelmän avulla, jossa neuroverkon parametrejä säädetään gradienttiinformaation perusteella. Evolutionäärinen laskenta tarjoaa tähän vaihtoehtoisen tavan muuttaa neuroverkon parametrejä. Tässä menetelmässä parametreihin lisätään kohinaa satunnaisprosessin kautta, jonka jälkeen prosessia toistetaan, kunnes optimi arvo löytyy. Sijoitussalkun hallinnassa sijoittaja pyrkii jakamaan sijoitettavan varallisuutensa arvopapereihin siten, että sijoitukset maksimoivat sijoittajan sijoitustavoitteet. Tässä tutkielmassa sovelletaan evolutionääriseen laskentaan perustuvaa vahvistusoppimista sijoitussalkun hallinnassa, jossa algoritminen agentti sijoittaa dynaamisesti sille annettua varallisuutta annetuille arvopapereille päivittäisellä sijoitusvälillä. Tutkielma on toteutettu empiirisenä tutkimuksena, jossa algoritmeja sovelletaan kahden tyyppisiin arvopapereihin; pörssinoteerattuihin rahastoihin yhdysvaltalaisessa Pacific Exchange pörssissä ja yksittäisiin osakkeisiin OMX Helsingin pörssissä. Tämän tutkielman tulokset osoittavat, että vahvistusoppimismenetelmiin perustuvat sijoitussalkun hoitaja agentit pystyvät suorittamaan tuottoisaa strategiaa sekä opetus, että testiaineistossa. Algoritmi pystyy suoriutumaan sijoittamisesta vertailuindeksejä paremmin ja S&P 500 rahaston kohdalla ainakin yhtä hyvin tai paremmin. Tuoton maksimoiva tavoitefunktio kuitenkin altistaa agentin suuremmalle riskille, mikä johtaa korkeampaan volatiliteettiin, Value-at-Risk ja Conditional Value-at-Risk arvoon.

Description

Thesis advisor

Kuosmanen, Timo

Keywords

reinforcement learning, evolution strategies, financial portfolio management, evolutionary algorithms

Other note

Citation