Feasibility of a Reinforcement Learning Based Stock Trader

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2020-08-18

Department

Major/Subject

Systems and Operations Research

Mcode

SCI3055

Degree programme

Master’s Programme in Mathematics and Operations Research

Language

en

Pages

67 + 9

Series

Abstract

Managing stock investments well is essential for both institutional and individual investors. The task is, however, so challenging that often a passive index may perform better than actively hand-picking the stocks to invest in. Machine Learning, which has successfully been applied to solve complex problems, could provide a solution. The Machine Learning approach called Reinforcement Learning is utilized to create an independent trading system for managing a portfolio consisting of eleven stocks and a cash option on a daily basis. The trading system is trained with a policy optimization algorithm, using information on both the stock prices and fundamental information of the underlying companies. The trading system is evaluated on historical data, previously unseen in training. The results indicate that the constructed trading systems on average outperform simple strategies, some of which represent a passive index consisting of the same eleven stocks. The most advanced trading system constructed seems to outperform the passive index with a 97% probability based on the total return during a fixed testing period. The trading system appears to perform better than the passive index when markets are going up, but when the market drops the trading system performs no better than the index even though it could allocate everything to cash. Overall, the market tends to go up and therefore the trading systems seem to outperform the simple strategies. Despite promising results, some assumptions made on the hypothetical trades performed back-in-time may not hold in practice. One suggestion for improving the trading system is to use data of higher frequency, which would decrease the inconsistency between the testing environment and the real-world.

Hantering av investeringar är essentiellt för både privata och professionella investerare. Aktiv aktieförvaltning är dock en så utmanande uppgift att många investerare istället föredrar en passiv aktiefond. Samtidigt har maskininlärning applicerats framgångsrikt på flera komplexa problem och övermänsklig prestanda uppnåtts. Förstärkningsinlärning, en kategori inom maskininlärning, används för att skapa ett autonomt portföljhanteringssystem, som dagligen förvaltar en portfölj bestående av elva aktier och ett kontantalternativ. Systemet baserar allokeringsbesluten på information om företagens aktiekurs samt kvartalsrapporter och tränas genom förstärkningsinlärningsalgoritmen Policy Gradient. Portföljhanteringssystemet utvärderas med hjälp av historisk data som inte använts i träningsskedet. Resultaten indikerar att systemet i medeltal presterar bättre än ett passivt index bestående av samma aktier samt andra simpla strategier. Det mest avancerade systemet presterade bättre än det passiva indexet med 97% sannolikhet under en viss testningsperiod. Systemet verkar prestera väl då marknaden överlag går uppåt men då marknaden faller så försämras prestationen, trots att kontantalternativet existerar. Eftersom marknaden generellt sett stiger så verkar portföljhanteringssystemet ändå slå de simpla strategierna. Trots lovande resultat så kan vissa antaganden gällande de teoretiska affärerna bakåt i tiden ifrågasättas. Ett utvecklingsförslag för systemet är att använda mer frekvent data, vilket skulle minska på klyftan mellan experimenten och verkligheten.

Description

Supervisor

Salo, Ahti

Thesis advisor

Kiviluoto, Lasse
Malka, Sakari

Keywords

reinforcement learning, policy gradient, portfolio management, trading system, kelly criterion, risk-adjusted return

Other note

Citation