Script and macro based malware classification by clustering abstract syntax trees
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2019-12-16
Department
Major/Subject
Mobile Computing, Services and Security
Mcode
SCI3045
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
68 + 1
Series
Abstract
Script and macro-based malicious attachments are typically only the first step of a malicious chain of events. These scripts acting only as a downloader to the actual malicous binary, and they are spread mostly through emails. Malicious email is one of the most significant infection vector for spreading malware. Malware authors use many obfuscation and modification techniques to make each mal- ware unique. Therefore, detecting these unique files by examining each sample’s staticaly is challenging. This thesis explores the static detection system, which uses the malware sample’s abstract syntax tree (AST) to detect similar samples. Abstract syntax trees from known malware samples are clustered to minimize the search space for similarity computing. We evaluate the system by measuring the accuracy of detecting malware and the overall performance. As the main result of this thesis, we show that the AST-based detection system is suitable to detect similar malware samples even if they are obfuscated. Furthermore, the approach improves the detection accuracy compared to the raw string-based pattern matching. Our results also show that the algorithm for computing the AST needs to be improved to be able to used for the real-time malware monitoring.Haitalliset skripti- ja makropohjaiset sähköpostiliitteet ovat tyypillisesti ensimmäinen vaihe haittaohjelman tartuntaketjussa. Näiden skriptien tarkoitus on toimia varsinaisten haittaohjelmien lataajina. Haitalliset sähköpostit ovat yksi merkittävimmistä haittaohjelmien tartuntavektoreista. Haittaohjelmien tekijät käyttävät monia hämärtämis- ja muokkaustekniikoita tehdäkseen kustakin haittaohjelmasta ainutlaatuisen, jonka seurauksena näiden tiedostojen havaitseminen tutkimalla tiedoston staattista sisältöä on haastavaa. Tässä diplomityössä tutkitaan staattista haittaohjelmien tunnistusjärjestelmää, joka käyttää abstraktia syntaksipuuta (AST) samankaltaisten haittaohjelmatiedostojen havaitsemiseen. Tunnettujen haittaohjelmien abstraktit syntaksipuut klusteroidaan hakuavaruuden minimoimiseksi. Järjestelmää arvioidaan mittaamalla tunnistustarkkuutta ja sen yleistä suorituskykyä. Tämän diplomityön päätuloksena osoitamme, että abstrakti syntaksipuupohjainen haittaohjelmien tunnistusjärjestelmä on kykenevä tunnistamaan samankaltaisia haittaohjelmia, vaikka niihin olisi käytetty erilaisia muokkaustekniikoita. Lisäksi lähestymistapa parantaa havaitsemistarkkuutta verrattuna järjestelmään, joka käyttää ainoastaan merkkijonopohjaista samankaltaisuutta. Tuloksemme osoittavat myös, että AST:n muodostukseen käytettävää algoritmia on parannettava, jotta sitä voidaan käyttää reaalikaiseen haittaohjelmien monitorointiin.Description
Supervisor
Ylä-Jääski, AnttiThesis advisor
Kurimo, EeroKeywords
malware detection, cluster analysis, abstract syntax tree, structural summaries