Predicting Stock Price Changes by Analysing Official Company Announcements with Natural Language Processing Methods

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Business | Master's thesis

Date

Major/Subject

Mcode

Degree programme

Language

en

Pages

44

Series

Abstract

The prediction of stock prices is a classic topic in finance. This is to no surprise, as a robust prediction model can generate significant abnormal returns with ease. Recently, Machine Learning (ML) and Natural Language Processing (NLP) have made their way to public awareness and have also been taken into use in finance. Tetlock (2007) was the first to show that text analysis of financial news can be used to forecast stock price movements. Since then, text analysis of news and other textual data such as tweets has been successfully used in further studies to predict movements of stock prices in the U.S. markets. The purpose of this thesis is to study whether information in official company announcements is associated with stock price movements in the Nordic markets, and more precisely, if words (unigrams) can be used to predict stock price movements within a short timespan. It is an interesting question whether English text analysis works in markets whose native language is not English. This study is the first to perform a large text analysis on company announcements in the Nordic markets. I further study if announcements without earnings information hold more predictive information and increase the prediction accuracy compared to announcements with the information. I use official company announcements released via the Nasdaq exchange. The dataset consists of 117 thousand announcements and 81 thousand PDF attachments, which include over 196 million words in total. The announcements and historical stock prices are downloaded from the Nasdaq website. In addition, Earnings Surprise information is downloaded from Thomson Reuters Eikon. The methodology of this thesis follows a similar study by Lee et al. (2014). I construct unigram features for each of the announcements based on a predefined word list by Loughran & McDonald (2018). These features describe whether the unigram is present in the announcement and/or attachment. A Random Forest Classifier, one of the most well-known ML algorithms, is trained to predict stock price movement to be either UP, STAY, or DOWN. I find strong evidence that text analysis can be used in the Nordic markets to improve the accuracy of prediction models. All the prediction models trained in the thesis improve the accuracy of prediction between 0.7 pp and 7.3 pp when compared to a baseline model without unigram features. These results are in line with Lee et al. (2014) and other existing literature. Furthermore, the greatest improvement, 7.3 pp, is indeed acquired from the announcements that do not contain financial information. This kind of datasets have been studied less and show potential as a further research topic.

Osakemarkkinoiden ennustaminen on yksi rahoituksen alan perinteisistä tutkimusaiheista. Toimivan ennustemallin kehittäminen avaa mahdollisuuden ylisuuriin tuottoihin, mikä tekee aiheesta erityisen kiinnostavan. Koneoppiminen, tekoäly ja luonnollinen tekstinkäsittely ovat termejä, jotka on viime vuosina otettu käyttöön median ja useiden muiden tieteenalojen lisäksi myös rahoituksen alan tutkimuksessa. Näitä metodeja käytetään usein ennustamiseen, minkä vuoksi rahoituksessa on tutkittu niiden käyttökelpoisuutta osakemarkkinoiden ennustamisessa. Tetlockin (2007) tutkimus osoitti ensimmäisenä, että osakemarkkinoiden suuntaa on mahdollista ennustaa uutisten tekstianalyysin perusteella. Tämän jälkeen tekstianalyysia on tutkittu hyvin tuloksin useissa ennustemalleissa Yhdysvaltojen markkinoilla. Tässä tutkielmassa tarkastelen, voidaanko tekstianalyysia hyödyntää pohjoismaisilla markkinoilla. Tutkin, onko yhtiötiedotteista saatavalla tekstipohjaisella informaatiolla sekä osakehintojen kehityksellä yhteys, eli voidaanko yhtiötiedotteiden tekstianalyysilla ennustaa hintojen suuntakehitystä. Tekstianalyysia ei ole aiemmin käytetty suuressa mittakaavassa hintojen ennustamiseen pohjoismaisilla markkinoilla. Myöskin markkinoita, joiden pääasiallinen työskentelykieli ei ole englanti, on tutkittu vähemmän. Tutkimuksessa keskityn myös yhtiötiedotteiden eroihin. Osassa yhtiötiedotteita on julkaistu yhtiön talouslukuja ja toisissa ei. Hypoteesini on, että talouslukuja sisältämättömillä yhtiötiedotteilla voidaan saavuttaa suuremmat hyödyt ennustamisessa kuin taloustietoja sisältävillä tiedotteilla. Tutkimuksen kohteena on 117 tuhatta yhtiötiedotetta ja niiden 81 PDF-liitettä, jotka on ladattu Nasdaq-pörssin sivuilta. Nämä tiedotteet sisältävät yhteensä yli 196 miljoonaa sanaa. Tiedotteiden lisäksi tutkimuksessa käytetään historiallisia osakkeiden hintatietoja (Nasdaq) sekä analyytikoiden tulosarvioita (Thomson Reuters Eikon). Metodologian osalta seuraan Leen ym. (2014) tutkimusta. Ennustemallissa käytettävät sanamuuttujat (unigram) kertovat, esiintyykö kyseinen sana yhtiötiedotteessa tai sen liitteissä. Etsittävät sanat perustuvat Loughran & McDonaldin (2018) tuottamaan sanalistaan. Ennustemalli on Random Forest Classifier -algoritmi, joka päättelee hintamuutoksen suuntaa kolmiportaisella asteikolla: ylös, alas tai pysyy samana. Tulosten perusteella tekstianalyysia voidaan hyödyntää pohjoismaisilla markkinoilla. Ennustemallien tarkkuus paranee parhaimmillaan 7,3 prosenttiyksikköä ja pienimmillään 0,7 prosenttiyksikköä verrattuna ennustemalliin, joka käyttää ainoastaan taloudellisia muuttujia. Nämä tulokset ovat yhtäläisiä Leen ym. (2014) tulosten kanssa. Suurin parannus ennustemallien tarkkuudessa saavutetaan käyttämällä yhtiötiedotteita, joissa ei ole taloudellisia tietoja. Näihin tiedotteisiin perustuvat ennusteet ovat hyvä aihe tuleville tutkimuksille.

Description

Thesis advisor

Torstila, Sami

Other note

Citation