Scalable Visual Detection of Brand Impersonation in Phishing Emails
No Thumbnail Available
URL
Journal Title
Journal ISSN
Volume Title
Sähkötekniikan korkeakoulu |
Master's thesis
Authors
Date
2020-05-18
Department
Major/Subject
Translational Engineering
Mcode
ELEC3023
Degree programme
AEE - Master’s Programme in Automation and Electrical Engineering (TS2013)
Language
en
Pages
58
Series
Abstract
Today, phishing conveyed through email is one of the most popular attack vectors used by cyber criminals. Annually, these attacks account for billions of USD in financial losses worldwide. A vast majority of phishing involves brand impersonation. As a defense, research has been conducted on target identification in said attacks. While the proposed solutions provide protection against web-based attacks, no research has yet addressed the problem of brand impersonation in phishing emails. The aim of this thesis is to develop a scalable, real-time, visual brand detection solution for supporting the automatic identification and analysis of phishing emails. To achieve this goal, a target identifier based on logo detection was implemented. To manage the scalability issues often present in such applications, the required human labor was minimized through synthetic data generation. Additionally, the effect of self-co-learning as a performance enhancer for the target identifier was investigated. Performance was tested on a custom, application specific test set of phishing emails. Furthermore, the validity of the approach was evaluated through performance comparison with an adaptation of a previously proposed text-based target identifier. The resulting accuracies were 76% and 85% in favor of the text-based approach. Despite inferior performance, the visual solution shows promising potential and is likely to improve if provided with additional resources. Finally, since the approaches consider completely different features, a combined solution should be considered for robustness and improved performance.Idag är phishing som skickas via e-post en av de mest populära attackvektorerna som används av cyberbrottslingar. Dessa attacker orsakar årligen ekonomiska förluster på miljarder (USD) runtom världen. En överväldigande majoritet av phishing innebär imation av varumärken. Som försvar har forskning genomförts, angående målidentifiering i dessa attacker. Medan de förslagna lösningarna ger skydd mot webbaserade attacker, har ingen forskning ännu tagit upp problemet gällande imitation av varumärken i phishing-mejl. Syftet med detta diplomarbete är att utveckla en skalbar varumärkesupptäckare som utnyttjar visuell data, för att stödja automatisk identifiering och analys av phishing-mejl i realtid. För att uppnå detta mål implementerades en målidentifierare baserad på logotypdetektering. För att hantera skalbarhetsproblemen som ofta uppstår i sådana applikationer, minimerades det krävda mänskliga arbetet genom skapning av syntetisk data. Dessutom undersöktes effekten av självmedlärande som prestationsförbättrare för målidentifieraren. Prestandan testades på en anpassad, applikationsspecifik, testuppsättning bestående av phishing-mejl. Den utvecklade metodens giltighet värderades genom jämförelse av prestanda med en anpassning av en tidigare föreslagen textbaserad målidentifierare. De resulterande noggrannheterna var 76% och 85% till förmån för det textbaserade lösningen. Trots sämre prestanda, visar den visuella lösningen lovande potential och kommer sannolikt att förbättras i samband med ytterligare resurser. Slutligen, eftersom målidentifierarna beaktar fullständigt olika kännetäcken, bör en kombination av lösningarna övervägas för robusthet och förbättrad prestanda.Description
Supervisor
Vujaklija, IvanThesis advisor
Åvist, PyryKeywords
phishing, brand impersonation, object detection, logo detection, synthetic data, self-co-learning