Identifying At-Risk Students at Metropolia UAS: Estimating Graduation Probability with Survival Models and Statistical Classifiers

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorMarttinen, Pekka
dc.contributor.authorViitanen, Lauri
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.supervisorKaski, Samuel
dc.date.accessioned2016-06-17T12:28:55Z
dc.date.available2016-06-17T12:28:55Z
dc.date.issued2016-06-13
dc.description.abstractSince the legislation changed in 2014 universities in Finland have been competing against each other for a larger share of the total government funding in higher education. The single most significant measure of the amount of funding is the university's share of all graduated students in a given year. Thus there is a need for sophisticated tools that help to increase the probability of a student to graduate. In this thesis we apply survival analysis to the student data of Metropolia UAS. The dataset contains over 100,000 study rights of which one third are used to find variables that separate graduates from dropouts and estimate the time remaining until graduation. We analyze the effect of non-linear interaction between the variables and time on the proportionality assumption in the Cox PH model and on the model's accuracy. We also classify students to the two categories using naive Bayes, generalized linear model, support vector machine and Gaussian process classification. The findings are in line with previous research: GPA and gender are significant predictors of graduation probability. We also find that gaining more credit points (3% of degree extent) during the first year increases the chances of graduation more than an increase of one unit in GPA (e.g. from 2 to 3 on scale 1-5). The constant variable model is preferred to the interaction-enabled model, having 0.73 concordance and 0.87 years RMSE for time to graduation. Support vector machine was found to be the best performing classifier with accuracy of 74%, which is a 14% improvement over classifying everyone into the larger category.en
dc.description.abstractLainsäädännön muututtua 2014 suomalaiset yliopistot ovat päätyneet kilpailemaan osuudestaan valtion korkeakoulutukseen suuntaamasta rahoituksesta. Merkittävin yksittäinen rahoituksen mittari on yliopiston osuus kaikista valmistuneista opiskelijoista kunakin vuonna. Yliopistoilla on siis tarve kehittyneille työkaluille, joilla voitaisiin korottaa valmistumisastetta entisestään. Tässä lopputyössä sovellamme elinaikamalleja Metropolia AMK:n opintorekisterin tietoihin. Rekisteri sisältää yli 100 000 opiskeluoikeutta, joista kolmasosaa käytetään elinaikamallin sovittamiseen sellaisten muuttujien löytämiseksi, jotka parhaiten erottelevat valmistuvat opiskelijat keskeyttävistä ja tarkimmin ennakoivat jäljellä olevaa opintoaikaa. Analysoimme epälineaarisen muunnoksen vaikutuksia käyttämämme Coxin PH mallin suhteellisuusoletukseen sekä ennustetarkkuuteen. Lajittelemme opiskelijat em. luokkiin myös käyttämällä naiivia Bayesilaista luokittelijaa, yleistettyä lineaarista mallia, tukivektorikoneluokittelijaa ja Gaussista prosessia. Tulokset ovat linjassa aiempien tutkimusten kanssa: arvosanojen keskiarvo ja opiskelijan sukupuoli ovat merkitseviä muuttujia valmistumistodennäköisyyden arvioinnissa. Havaitsemme myös, että ylimääräisten opintopisteiden (3 % tutkinnon laajuudesta) suorittaminen 1. vuonna kasvattaa todennäköisyyttä valmistua enemmän kuin yhden numeron parannus keskiarvossa (asteikolla 1-5). Vakiomuuttujamalli havaitaan soveltuvammaksi kuin epälineaarisen muunnoksen salliva malli. Sen konkordanssi on 0,73 ja valmistumisajankohdan ennusteen keskivirhe 0,87 vuotta. Tukivektorikone havaittiin parhaaksi valmistumista luokittelevaksi menetelmäksi. Sen tarkkuus on 74 % eli n. 14 % parempi kuin luokittelemalla kaikki enemmistön mukaan.fi
dc.format.extentvii+77
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/20883
dc.identifier.urnURN:NBN:fi:aalto-201606172491
dc.language.isoenen
dc.programmeTietotekniikan koulutusohjelmafi
dc.programme.majorTietojenkäsittelytiedefi
dc.programme.mcodeIL3010fi
dc.rights.accesslevelopenAccess
dc.subject.keywordsurvival analysisen
dc.subject.keywordGaussian processen
dc.subject.keywordhazarden
dc.subject.keywordgraduationen
dc.subject.keywordpredictionen
dc.subject.keywordCox PH modelen
dc.titleIdentifying At-Risk Students at Metropolia UAS: Estimating Graduation Probability with Survival Models and Statistical Classifiersen
dc.titleKorkean keskeyttämisriskin opiskelijoiden tunnistaminen Metropolia AMK:ssa: Valmistumistodennäköisyyden arviointi elinaikamalleilla ja tilastollisilla luokittelijoillafi
dc.typeG2 Pro gradu, diplomityöfi
dc.type.okmG2 Pro gradu, diplomityö
dc.type.ontasotMaster's thesisen
dc.type.ontasotDiplomityöfi
dc.type.publicationmasterThesis
local.aalto.idinssi53923
local.aalto.openaccessyes

Files

Original bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
master_Viitanen_Lauri_2016.pdf
Size:
1.99 MB
Format:
Adobe Portable Document Format