Application of Named Entity Recognition within Email Threat Detection
| dc.contributor | Aalto-yliopisto | fi |
| dc.contributor | Aalto University | en |
| dc.contributor.advisor | Leal, Rafael | |
| dc.contributor.advisor | Toivonen, Markus | |
| dc.contributor.author | Estlander, Max | |
| dc.contributor.school | Perustieteiden korkeakoulu | fi |
| dc.contributor.school | School of Science | en |
| dc.contributor.supervisor | Hyvönen, Eero | |
| dc.date.accessioned | 2025-05-20T17:04:37Z | |
| dc.date.available | 2025-05-20T17:04:37Z | |
| dc.date.issued | 2025-04-25 | |
| dc.description.abstract | Email has become a widely used communication tool due to being cheap, accessible, convenient, and fast. The same reasons make it an attractive channel for malicious actors to attempt to phish email users for their own gain. Technical solutions are being developed, but due to the ease of access and the channel’s value, malicious actors continuously find ways to circumvent these solutions. This work builds upon such a solution, a machine learning model that attempts to predict the maliciousness of an email given a set of extracted features from the email. This thesis focuses on improving the text-based features using Named Entity Recognition. Currently, this is a labor-intensive manual operation conducted by experts analyzing reported emails. Partially automating the feature generation could allow faster identification of emerging trends which would allow the model to remain current and more rapidly identify and prevent new types of phishing campaign, especially those that contain previously unseen named entities. This thesis also covers some of the computational limitations when deploying the model in real-world applications and how this affects the use of language models. This work also explores | en |
| dc.description.abstract | E-post är ett populärt kommunikationsverktyg på grund av att det är billigt, tillgängligt, behändight och snabbt. Pågrund av samma faktorer är e-post ett attraktivt medel för illvilliga aktörer att försöka lura e-postanvändare för egen fördel. Tekniska lösningar utvecklas konstant för att motarbeta detta, men på grund av lätt tillgång och möjlighet att nå värdefulla offer hittar illvilliga aktörer kontinuerligt sätt att kringgå dessa lösningar. Detta arbete bygger på en tidigare teknisk lösning, en maskininlärningsmodell som försöker förutsäga ifall ett e-post är illvilligt, på basis av kännetecken utvunna från e-postet. Denna avhandling fokuserar på att förbättra de textbaserade kännetecken med hjälp av så kallad Named Entity Recognition, igenkänning av nämnda entiteter. Nuvarande metoden för att uppehålla och hitta nya kännetecken är en arbetsintensiv manuell uppgift som utförs av experter. Experterna analyserar rapporterade epostmeddelanden och försöker hitta mönster som kan anvädas som kännetecken. Delvis automatisering av nya känneteckens utvinnings processen skulle kunna möjliggöra snabbare identifiering av växande trender. Vilket skulle möijligöra att modellen hålls aktuell och kan snabbare identifiera samt förhindra nya typer av phishingkampanjer, särskilt de som innehåller tidigare osedda namngivna enheter. Denna avhandling täcker också några av begränsningarna vid implementering av modellen i verklig använding och hur detta påverkar utnyttjande av språkmodeller. Som konsekvens av detta utforskar arbetet också metoder för | sv |
| dc.format.extent | 39 | |
| dc.format.mimetype | application/pdf | en |
| dc.identifier.uri | https://aaltodoc.aalto.fi/handle/123456789/135620 | |
| dc.identifier.urn | URN:NBN:fi:aalto-202505203886 | |
| dc.language.iso | en | en |
| dc.programme | Master's Programme in Computer, Communication and Information Sciences | en |
| dc.programme.major | Machine Learning, Data Science and Artificial Intelligence | en |
| dc.subject.keyword | named entity recognition | en |
| dc.subject.keyword | en | |
| dc.subject.keyword | phishing | en |
| dc.subject.keyword | gradient boosting machines | en |
| dc.subject.keyword | machine learning | en |
| dc.subject.keyword | natural language processing | en |
| dc.title | Application of Named Entity Recognition within Email Threat Detection | en |
| dc.title | Använding av nämnda entiters igenkänning inom e-posthot upptäckning | sv |
| dc.type | G2 Pro gradu, diplomityö | fi |
| dc.type.ontasot | Master's thesis | en |
| dc.type.ontasot | Diplomityö | fi |
| local.aalto.electroniconly | yes | |
| local.aalto.openaccess | no |