Explaining football transfer fees with player performance statistics – A regression analysis across top 5 European leagues

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Business | Master's thesis

Department

Major/Subject

Mcode

Language

en

Pages

83

Series

Abstract

This study aims to find out whether a transfer fee paid for a football player can be explained with performance statistics, which is the player’s performance before the transfer happened. Data is gathered from the highest tier of football in five different countries: England, France, Germany, Italy, and Spain. These are the biggest football leagues in the world. Only summer transfers are considered, and the transfers are gathered from years 2018, 2019, 2020, 2021, 2022, 2023 and 2024. From the players transferred during these years, performance statistics from their prior seasons are collected. Several data point exclusions are made, for example loans, free transfers, and goalkeepers are removed. Furthermore, inadequate data points are dropped, for instance if contract length is not found. Dataset is divided into defenders, midfielders, and attackers, each of which have their own regression models. Feature engineering is performed before feature selection. The data is split into training and test sets with 80/20 split. The main regression model is multiple linear regression. Feature selection is done with backward elimination. In addition, LASSO regression and random forest regression are performed to get benchmarks for the predictive performance and variance explained. LASSO regression performs its own feature selection while feature selection algorithm Boruta is used for random forest. Hyperparameter values of random forest are tuned. The results of the models are verbally analysed and mean squared error and root mean squared error of the predictions and R² as well as adjusted R² are used to compare the models and their results. The results of multiple linear regression show that age, contract length as well as whether they transferred to the Premier League or out of it are statistically significant regardless of the player category. In addition to these not performance related variables, each category has multiple significant predictors that are performance based. For defenders these are percentage of aerial duels won, touches in attacking third, challenges lost, medium pass completion percentage, tackles in the middle third, npxG + xAG, and progressive carrying distance. For midfielders they are goal creating actions, interceptions, challenges lost, passes into final third, pass completion percentage, recoveries and xG. For attackers these are miscontrols, pass completion percentage, shots on target percentage, take-ons leading to a goal, tackled during take-on percentage, xAG and xG. The results indicate that – to some extent – it is possible to explain the transfer fee paid with the performance of the player. However, limitations apply, and the results should be interpreted with caution.

Tämän tutkimuksen tavoitteena on selvittää voiko pelaajan siirtosumman selittää pelaajan aikaisempien kausien suoritusten perusteella. Dataa kerättiin viiden eri maan korkeimmalta sarjatasolta. Nämä maat ovat Englanti, Ranska, Saksa, Italia ja Espanja. Nämä sarjat ovat suurimmat jalkapallosarjat maailmassa. Pelkästään kesällä tapahtuneet siirrot huomioidaan. Siirrot kerätään vuosilta 2018, 2019, 2020, 2021, 2022, 2023 ja 2024. Pelaajista, jotka siirtyivät näinä vuosina, on kerätty tilastoja aikaisemmilta kausilta. Useita data-pisteitä on jätetty pois, esimerkiksi lainasiirrot, ilmaiset siirrot sekä maalivahdit on rajattu pois. Lisäksi puutteelliset datapisteet on poistettu, kuten tapaukset, joissa sopimuksen pituutta ei ole saatavilla. Data on jaettu puolustajiin, keskikenttäpelaajiin ja hyökkääjiin, joille kullekin on oma regressiomallinsa. Muuttujia muutetaan ennen muuttujien valinnan tekemistä. Data jaetaan opetus- ja testidataan 80/20 jaolla. Lineaarinen regression on tutkimuksen pääasiallinen regressiomalli. Muuttujien valinta tehdään poistovalinnalla. Lisäksi käytetään LASSO-regressiota sekä satunnaismetsäregressiota ennustustarkkuuden ja selitetyn varianssin vertailua varten. LASSO-regression valitsee omat muuttujansa, kun taas muuttujan valinta algoritmi -Boruta:a käytetään satunnaismetsämalliin. Mallien tulokset käydään läpi sanallisesti, ja ennustusten virhearvoja ja R²- sekä korjattuja R² -lukuja käytetään mallien ja niiden tulosten vertailemiseen. Lineaarisen regression tulokset osoittavat, että ikä, sopimuksen kesto, sekä Valioliigaan siirtyminen tai sieltä pois siirtyminen ovat tilastollisesti merkitseviä riippumatta pelaajakategoriasta. Näiden ei-suorituskykyyn liittyvien muuttujien lisäksi jokaisella pelaajakategorialla on useita tilastollisesti merkitseviä suorituskykyyn perustuvia selittäviä muuttujia. Puolustajille nämä ovat: pääpallojen voittoprosentti, kosketukset hyökkäyskolmanneksella, hävityt kaksinkamppailut, keskipitkien syöttöjen onnistumisprosentti, taklaukset keskikolmanneksella, npxG + xAG sekä palloa ylöspäin kuljetettu matka. Keskikenttäpelaajilla ne ovat maalipaikkoihin johtaneet suoritukset, katkot, hävityt kaksinkamppailut, syötöt hyökkäyskolmannekselle, syöttöjen onnistumisprosentti, pallonriistot ja xG. Hyökkääjillä nämä ovat epäonnistuneet haltuunotot, syöttöjen onnistumisprosentti, maalia kohti suuntautuneiden laukauksien prosenttiosuus, maaliin johtaneet ohitukset, taklattu harhautuksen aikana -prosenttiosuus, xAG ja xG. Tulokset osoittavat, että on jossain määrin mahdollista selittää pelaajan siirtosumma hänen suorituskykytilastojensa pohjalta. Rajoitteita kuitenkin on, joten tuloksia pitää tulkita varovaisesti.

Description

Supervisor

Seppälä, Tomi

Other note

Citation