Feasibility of a Reinforcement Learning Based Stock Trader
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2020-08-18
Department
Major/Subject
Systems and Operations Research
Mcode
SCI3055
Degree programme
Master’s Programme in Mathematics and Operations Research
Language
en
Pages
67 + 9
Series
Abstract
Managing stock investments well is essential for both institutional and individual investors. The task is, however, so challenging that often a passive index may perform better than actively hand-picking the stocks to invest in. Machine Learning, which has successfully been applied to solve complex problems, could provide a solution. The Machine Learning approach called Reinforcement Learning is utilized to create an independent trading system for managing a portfolio consisting of eleven stocks and a cash option on a daily basis. The trading system is trained with a policy optimization algorithm, using information on both the stock prices and fundamental information of the underlying companies. The trading system is evaluated on historical data, previously unseen in training. The results indicate that the constructed trading systems on average outperform simple strategies, some of which represent a passive index consisting of the same eleven stocks. The most advanced trading system constructed seems to outperform the passive index with a 97% probability based on the total return during a fixed testing period. The trading system appears to perform better than the passive index when markets are going up, but when the market drops the trading system performs no better than the index even though it could allocate everything to cash. Overall, the market tends to go up and therefore the trading systems seem to outperform the simple strategies. Despite promising results, some assumptions made on the hypothetical trades performed back-in-time may not hold in practice. One suggestion for improving the trading system is to use data of higher frequency, which would decrease the inconsistency between the testing environment and the real-world.Hantering av investeringar är essentiellt för både privata och professionella investerare. Aktiv aktieförvaltning är dock en så utmanande uppgift att många investerare istället föredrar en passiv aktiefond. Samtidigt har maskininlärning applicerats framgångsrikt på flera komplexa problem och övermänsklig prestanda uppnåtts. Förstärkningsinlärning, en kategori inom maskininlärning, används för att skapa ett autonomt portföljhanteringssystem, som dagligen förvaltar en portfölj bestående av elva aktier och ett kontantalternativ. Systemet baserar allokeringsbesluten på information om företagens aktiekurs samt kvartalsrapporter och tränas genom förstärkningsinlärningsalgoritmen Policy Gradient. Portföljhanteringssystemet utvärderas med hjälp av historisk data som inte använts i träningsskedet. Resultaten indikerar att systemet i medeltal presterar bättre än ett passivt index bestående av samma aktier samt andra simpla strategier. Det mest avancerade systemet presterade bättre än det passiva indexet med 97% sannolikhet under en viss testningsperiod. Systemet verkar prestera väl då marknaden överlag går uppåt men då marknaden faller så försämras prestationen, trots att kontantalternativet existerar. Eftersom marknaden generellt sett stiger så verkar portföljhanteringssystemet ändå slå de simpla strategierna. Trots lovande resultat så kan vissa antaganden gällande de teoretiska affärerna bakåt i tiden ifrågasättas. Ett utvecklingsförslag för systemet är att använda mer frekvent data, vilket skulle minska på klyftan mellan experimenten och verkligheten.Description
Supervisor
Salo, AhtiThesis advisor
Kiviluoto, LasseMalka, Sakari
Keywords
reinforcement learning, policy gradient, portfolio management, trading system, kelly criterion, risk-adjusted return