Creating a Machine Learning model to predict graduation
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2022-07-29
Department
Major/Subject
Machine Learning, Data Science and Artificial Intelligence
Mcode
SCI3044
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
74 + 32
Series
Abstract
In this thesis, student data from Aalto University's Computer Science program was used to generate multiple binary classification machine learning models to predict whether students graduate or drop out. Model performance and related studies were analysed to create recommendations for the next steps in terms of data selection and model creation. The study also investigates how much data is required before predictions become accurate. From a total dataset of over 1000 students, around 500 students were selected for training and validation. The dataset consists of mainly academic features, such as course completions and grades, but a few personal characteristics such as nationality, gender and age were used as well. Models analysed were Logistic Regression, Naive Bayes, Support Vector Machines, k-Nearest Neighbors, Artificial Neural Networks and Random Forest. Training and validation were done by using kfold cross-validation and models' performance were analysed using a few common machine learning metrics such as accuracy, precision, recall, f1-measure, false positive rate and feature importance. Findings reveal that after 4 semesters of academic data, all models have adequate performance compared to a dummy classifier. Findings also reveal personal features to be relevant in all data sizes, and students' age to be one of the most important features when predicting graduation or drop-out. The thesis suggests that additional investigation is required to increase performance when the amount of academic data is low. The thesis recommends a more detailed investigation of how different socio-economic or personal features affect model performance, as well as improving the models using hyperparameter tuning methods.Tässä lopputyössä Aalto-yliopiston tietotekniikan laitoksen opintorekisterin tietoja käytettiin binääriseen kategorisointiin soveltuvan koneoppimismallin kehittämiseen. Mallien tarkoituksena oli ennustaa, mikäli opinnot joko valmistuvat vai keskeytyvät. Mallien tuloksista ja työhön liittyvän kirjallisuuden tarkastelusta luotiin suositukset sille, miten tiedonvalintaa ja mallien kehittämistä kannattaisi tehdä tulevaisuudessa. Työ myös tarkasteli kuinka paljon tietoa mallit tarvitsevat tarkkojen ennustusten tekemiseen. Mallin kouluttamiseen ja validointiin valittiin hieman yli 1000 opiskelijan tietoaineistosta noin 500 opiskelijaa. Tietoaineisto sisältää päällisin puolin opiskelijan opiskeluun liittyviä piirteitä, kuten kurssisuorituksia ja -arvosanoja, mutta myös muutamia henkilökohtaisia piirteitä, kuten kansallisuus, sukupuoli ja ikä. Logistinen Regressio, Naiivi Bayes, Tukivektorikone, k-Lähimmän Naapurin Menetelmä, Neuroverkot ja Satunnaismetsä valittiin tarkasteltaviksi malleiksi. Kouluttamiseen ja validointiin käytettiin kfold-ristivalidointia ja mallien tehokkuutta analysoitiin käyttäen tyypillisimpiä koneoppimisen metriikoita, kuten täsmällisyys, tarkkuus, herkkyys, f1-arvo, väärien hyväksyntöjen määrä ja piirretärkeys. Kun työn tuloksia verrattiin valeluokittimeen, havaittiin mallien olevan tarpeeksi tehokkaita 4 lukukauden opiskelijatietojen syöttämisen jälkeen. Valeluokitin ennusti jokaisen oppilaan valmistuvan. Työssä havaittiin myös henkilökohtaisten piirteiden olevan merkitseviä kaikilla lukukausimäärillä ja oppilaan iän olevan yksi tärkeimmistä ominaisuuksista opintojen valmistumista tai keskeyttämistä ennustettaessa. Työ ehdottaa lisätutkimuksia, jossa keskityttäisiin analysoimaan opiskelijoiden sosioekonomisten ja henkilökohtaisten ominaisuuksien vaikutusta mallien tehokkuuteen. Mallien tehokkuutta pystyttäisiin todennäköisesti myös parantamaan käyttämällä hyperparametrien säätömenetelmiä.Description
Supervisor
Hellas, ArtoThesis advisor
Rytkönen, AnniKeywords
machine learning, classification, drop-out, graduation