Predicting players' success on the PGA-Tour

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Business | Master's thesis
Date
2020
Major/Subject
Mcode
Degree programme
Information and Service Management (ISM)
Language
en
Pages
37+9
Series
Abstract
The PGA-Tour is the most prestigious golf tournament circle in the world and being able to predict outcomes of the tournaments is continuously on the mind of bookmakers, bettors, and academics. This thesis attempts to use the official PGA-Tour statistics gathered from 2010 to 2019 to predict the success of the players in future tournaments. The literature review concentrates on the existing academic research about what statistics correlate most with success in professional golf and how to even measure success in professional golf. In this thesis a player’s success is measured by the number of Top 10 finishes he gets during the 2019-season. The original data from the PGA-Tour could not be used as such but needed to be heavily modified in order to fit the two models that were used to make the predictions. PCA-feature-clustering was applied to bundle some of the original variables to reduce the multicollinearity issues in the training data. The models used to predict the probabilities, with which players reach the top 10, are Logistic Regression and Random Forest Classifier. Assessing how well the models performed was done by calculating the average deviation of each player’s predicted percentage of Top 10 Finishes by the end of the 2019 season compared to the actual percentage of Top 10 Finishes. The Random Forest Classifier model performed better, than the older Logistic Regression model, with a mean AD of 4.486 percent. This means, that on average, the percentage of Top 10 Finishes predicted for each player was only off by 4.486 percent. In conclusion, using machine learning algorithms, the PGA-Tour statistics could be used to predict the future success of players. However, the accuracy of the models could be improved by tweaking them more or using newer and more complex machine learning algorithms.

PGA-kiertue on maailman arvostetuin golfturnauskiertue, jonka tulosten ennustaminen on jatkuvasti vedonlyöjien ja tutkijoiden mielessä. Tässä Pro Gradu -tutkielmassa yritetään käyttää vuosina 2010--2019 kerättyjä virallisia PGA Tour -tilastoja ennustamaan pelaajien menestystä tulevissa turnauksissa. Kirjallisuuskatsaus keskittyy olemassa oleviin tutkimuksiin siitä, mitkä tilastot korreloivat ammattilaisgolfissa menestyksen kanssa ja miten menestystä kannattaa mitata. Pelaajan menestystä mitataan tässä Pro Gradussa sillä, miten usein hän pääsee Top 10:iin vuoden 2019 kauden aikana. PGA-kiertueelta kerättyä alkuperäistä dataa ei voitu käyttää sellaisenaan, vaan sitä jouduttiin muokkaamaan, jotta se sopi kahteen ennusteen tekemiseen käytettyyn malliin. Pääkomponenttianalyysia käytettiin alkuperäisten muuttujien klusteroimiseen, jotta saatiin pienennettyä harjoitteludatan multikollineaarisuusongelmaa. Top 10:iin pääsemisen todennäköisyyksien ennustamiseen käytetyt mallit ovat Logistinen Regressio ja Random Forest Classifier. Mallien suorituskyvyn arviointi tehtiin laskemalla kunkin pelaajan vuoden 2019-kauden ennustetun Top 10 -sijoitusten prosenttiosuus verrattuna todelliseen Top 10 -sijoitusten prosenttiosuuteen. Random Forest Classifier -malli (RFC) toimi paremmin kuin vanhempi Logistinen Regressiomalli. RFC:n keskimääräinen AD oli 4,486 prosenttia, mikä tarkoittaa, että keskimäärin, Top 10 -sijoitusten ennustettu prosenttiosuus jokaiselle pelaajalle erosi todellisesta prosenttiosuudesta vain 4,486 prosenttia. Yhteenvetona voidaan todeta, että koneoppimisalgoritmeja käyttämällä, PGA-kiertueen tilastoja voidaan käyttää ennustamaan pelaajien tulevaa menestystä. Mallien tarkkuutta voitaisiin parantaa kuitenkin entisestään säätämällä niitä tai käyttämällä uudempia ja monimutkaisempia koneoppimisalgoritmeja.
Description
Thesis advisor
Malo, Pekka
Viitasaari, Lauri
Keywords
PGA, golf, machine learning, prediction model, logistic regression, Random Forest Classifier
Other note
Citation