Comparison of classification methods in predicting NHL game event outcomes

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2021-01-25

Department

Major/Subject

Complex Systems

Mcode

SCI3060

Degree programme

Master’s Programme in Life Science Technologies

Language

en

Pages

56 + 7

Series

Abstract

Prior research in predicting success in sports consider hockey to be one of the most challenging domains, due to relatively low prediction accuracies. Hence, research on utilizing hockey game predictions in sports betting is often only briefly discussed, tested with a simple fixed strategy, or left as future work. To the best of my knowledge, no other research has studied a system that combines National Hockey League game predictions with the Kelly Criterion betting strategy and simulates betting over different NHL seasons. In this thesis, that system is implemented and used to simulate betting for four common bet event types: Moneyline, Threeway, Over/Under and Asian handicap. The purpose is to predict NHL games with machine learning methods and to study how the predictions fare against the odds markets. Different predictor models, domain-specific feature extraction techniques and fractional Kelly Criterion strategies are studied and compared. Moreover, the performance of the system proposed is measured at each game during the season, rather than applying traditional machine learning train/test splits or k-fold cross-validations that are not well suitable for chronologically processed game data. The four latest NHL seasons are analyzed, which enables a comprehensive evaluation of the capability of the system. The highest accuracy is recorded by random forests for the Asian handicap predictions, while the best return on investment in the betting simulations is achieved using random forests for the Over/Under events. The largest profits are obtained with the most risk tolerant betting strategies; they also cause the largest and inevitable losses for event types with too inaccurate predictions. The risk averse strategies minimize losses and can even provide financial gains for events that are unprofitable with other strategies. However, risk averse strategies generate inferior profits when success is guaranteed. The results show significant differences between the event types studied, in both accuracy and betting simulations. On the other hand, accuracy variation is negligible for different predictor model configurations within individual event types. However, small differences in accuracy result in a relatively large variation in the betting simulation. The most significant impact in the betting simulation results originates from the wide selection of different fractional Kelly Criterion strategies studied.

Aikaisemmat tutkimukset urheilussa menestymisen ennustamiseksi pitävät jääkiekkoa yhtenä haastavimmista lajeista, suhteellisen alhaisen ennustustarkkuuden vuoksi. Siksi jääkiekkoennusteiden hyödyntämistä urheiluvedonlyönnissä käsitellään usein vain lyhyesti, testataan yksinkertaisella kiinnitetyllä strategialla, tai se jätetään jatkokehitysideaksi. Parhaan tietoni mukaan mikään muu aiempi tutkimus ei ole tutkinut järjestelmää, jossa yhdistetään Kansallisen jääkiekkoliigan peliennusteet Kelly-kriteeri -vedonlyöntistrategiaan ja simuloidaan vedonlyöntiä useiden kausien yli. Tässä tutkielmassa järjestelmä toteutetaan ja sitä käytetään vedonlyönnin simulointiin neljälle yleiselle vedonlyöntikohteelle: ottelun voittaja, varsinaisen peliajan tulos, yli / alle ja aasialainen tasoitus. Tarkoitus on ennustaa Kansallisen jääkiekkoliigan otteluita koneoppimismenetelmillä ja tutkia, miten ennusteet menestyvät kerroinmarkkinoilla. Erilaisia ennustinmalleja, otteludatan piirteiden valintatekniikoita ja osittaisia Kelly-kriteereitä tutkitaan ja verrataan. Ehdotetun järjestelmän suorituskyky mitataan kauden jokaisen ottelun perusteella, eikä perinteisellä opetusaineisto / testiaineisto -jaolla tai k-kertaisella ristivalidoinnilla, jotka eivät sovellu hyvin kronologisesti prosessoitavaan otteludataan. Neljä viimeisintä Kansallisen jääkiekkoliigan kautta analysoidaan, mikä mahdollistaa kattavan arvioinnin järjestelmän kyvykkyydestä. Suurin tarkkuus saavutetaan satunnaismetsäluokittimella aasialaiselle tasoitusvetokohteelle, kun taas paras sijoitetun pääoman tuotto vedonlyöntisimulaatioissa saavutetaan käyttämällä satunnaismetsäluokitinta yli / alle -kohteissa. Suurimmat voitot saavutetaan eniten riskiä sietävillä vedonlyöntistrategioilla: ne aiheuttavat myös suurimmat ja väistämättömät tappiot vedonlyöntikohteissa, joiden ennusteet ovat liian epätarkkoja. Riskejä välttävät strategiat minimoivat tappiot ja voivat jopa tuottaa taloudellista voittoa vedonlyöntikohteille, jotka eivät ole kannattavia muiden strategioiden kanssa. Riskejä välttävät strategiat tuottavat kuitenkin huonompaa tuottoa, kun voitollisuus on varmaa. Eri vedonlyontikohteiden tutkimuksen tulokset osoittavat merkittäviä eroja sekä ennustustarkkuudessa että vedonlyönnin simuloinnissa. Tarkkuuden vaihtelu on toisaalta lähes merkityksetöntä tutkittaessa yksittäistä kohdetta ja erilaisia ennustinmalliasetuksia. Pienet erot tarkkuudessa johtavat kuitenkin suhteellisen suuriin vaihteluihin vedonlyöntisimulaatiossa. Merkittävin vaikutus vedonlyöntisimulaatioiden tuottoihin aiheutuu laajasta, osittaiseen Kelly-kriteeriin perustuvasta vedonlyöntistrategiavalikoimasta.

Description

Supervisor

Saramäki, Jari

Thesis advisor

Saramäki, Jari

Keywords

NHL, classification, machine learning, sports prediction, Kelly Criterion

Other note

Citation