Optimization of learning paths for individualized phishing training
No Thumbnail Available
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Authors
Date
2024-01-23
Department
Major/Subject
Systems and Operations Research
Mcode
SCI3055
Degree programme
Master’s Programme in Mathematics and Operations Research
Language
en
Pages
54
Series
Abstract
Phishing emails are a common form of cybercrime, usually with the aim of stealing sensitive information, such as user credentials, by making victims do some form of unsafe action. Organizations have been increasing their spending on technical cybersecurity solutions, which has left phishing emails as a lucrative method for breaching them, utilizing employees as the weakest link in cyberdefence. Recently there has been an emergence of companies providing training to employees in the form of training phishing emails, with the goal of teaching employees to report both them and real phishing attacks. While the training has been shown to work, there have been no formal studies on how the learning could be quantified and if this could be utilized to optimize training phishing email selection. This thesis is done in collaboration with Hoxhunt, a Finnish human risk management platform providing automated phishing awareness training to end users in customer organizations. The aim of this thesis is to test the applicability of well established learning models for quantifying learning progress, predicting employee performance, and whether the models are applicable for training content selection. The training data of Hoxhunt from the year 2022 is used for this purpose, spanning 1 538 278 users and 11 834 908 data points. The applicability of an established learning model called forgetting curves is tested by measuring its capability to make binary predictions on whether a user reports a phishing email or clicks on a malicious link. For baseline comparisons the performance of forgetting curves is compared to a logistic regression model trained on half of the training data provided, with the other half used for testing both models. These relatively simple models output probabilities and their predictive performance is thus analyzed at varying decision thresholds, using graphical plots such as ROC-AUC and PR-AUC curves. The models demonstrated comparable performance with some predictive ability, indicating forgetting curves could be a useful approach for training content selection in phishing awareness training. While future studies could find ways to better distinguish reporting and clicking events, forgetting curves could serve as a baseline for quantifying user learning in identifying and reporting phishing email attacks.Kalasteluviestit ovat verkkorikollisuuden yleinen muoto, jossa on yleensä tavoitteena varastaa arkaluonteista tietoa, kuten käyttäjän pääsytiedot, saamalla uhri toimimaan epäturvallisesti. Organisaatiot ovat lisänneet menojaan teknisissä kyberturvaratkaisuissa, mikä on jättänyt kalasteluviestit kannattavaksi menetelmäksi murtaa niitä, hyödyntäen työntekijöitä kyberpuolustuksen heikoimpana lenkkinä. Viime aikoina kalasteluviestikoulutusta tarjoavien yritysten määrä on ollut kasvussa, joiden tavoitteena on opettaa työntekijöitä raportoimaan sekä koulutus- että kalasteluviestejä. Vaikka koulutus on osoitettu toimivaksi, oppimisen mittaamisesta ja tämän tiedon hyödyntämisestä koulutusviestien valinnan optimoimiseen ei ole muodollisia tutkimuksia. Tämä diplomityö on tehty yhteistyössä suomalaisen ihmisriskinhallinnan alustaa ja automatisoitua kalasteluviestien tunnistamiskoulutusta asiakasorganisaatioille tarjoavan yrityksen, Hoxhuntin kanssa. Diplomityön tavoitteena on testata tutkittujen oppimista kuvaavien mallien soveltuvuutta oppimisen kehityksen mittaamiseen, työntekijöiden suorituskyvyn ennustamiseen, sekä voiko malleja käyttää koulutussisällön valitsemiseen. Tähän hyödynnetään Hoxhuntin koulutusdataa vuodelta 2022, mikä koostuu 1 538 278 käyttäjästä ja 11 834 908 datapisteestä. Vakiintuneen oppimismallin, jota kutsutaan unohtamiskäyräksi, soveltuvuutta testataan sen kyvyllä tehdä binäärisiä ennusteita siitä, tuleeko käyttäjä raportoimaan sähköpostin vai klikkaako hän vaarallista linkkiä. Vertailukohdaksi unohtamiskäyriä verrataan logistiseen regressiomalliin, joka on koulutettu puolella datasta, kun toista puolikasta käytetään mallien testaamiseen. Nämä verrattain yksinkertaiset mallit tuottavat todennäköisyyksiä ja niiden ennustamiskykyä verrataan eri päätöksentekorajoilla, hyödyntäen graafisia kuvaajia kuten ROC-AUC ja PR-AUC käyriä. Mallit osoittivat vastaavaa kelvollista suorituskykyä ennustamisessa, osoittaen unohtamiskäyrien olevan mahdollisesti hyödyllinen lähestymistapa koulutussisällön valitsemiseen kalastusviestikoulutuksessa. Vaikka lisätutkimukset voivat löytää keinoja paremmin erottaa raportointeja ja klikkauksia, unohtamiskäyrät voivat toimia lähtökohtana käyttäjien oppimisen mittaamiseen kalasteluviestien tunnistamisessa ja niiden raportoimisessa.Description
Supervisor
Salo, AhtiThesis advisor
Ekström, JussiKeywords
cybersecurity, phishing, forgetting curve, spaced repetition