Script and macro based malware classification by clustering abstract syntax trees

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2019-12-16

Department

Major/Subject

Mobile Computing, Services and Security

Mcode

SCI3045

Degree programme

Master’s Programme in Computer, Communication and Information Sciences

Language

en

Pages

68 + 1

Series

Abstract

Script and macro-based malicious attachments are typically only the first step of a malicious chain of events. These scripts acting only as a downloader to the actual malicous binary, and they are spread mostly through emails. Malicious email is one of the most significant infection vector for spreading malware. Malware authors use many obfuscation and modification techniques to make each mal- ware unique. Therefore, detecting these unique files by examining each sample’s staticaly is challenging. This thesis explores the static detection system, which uses the malware sample’s abstract syntax tree (AST) to detect similar samples. Abstract syntax trees from known malware samples are clustered to minimize the search space for similarity computing. We evaluate the system by measuring the accuracy of detecting malware and the overall performance. As the main result of this thesis, we show that the AST-based detection system is suitable to detect similar malware samples even if they are obfuscated. Furthermore, the approach improves the detection accuracy compared to the raw string-based pattern matching. Our results also show that the algorithm for computing the AST needs to be improved to be able to used for the real-time malware monitoring.

Haitalliset skripti- ja makropohjaiset sähköpostiliitteet ovat tyypillisesti ensimmäinen vaihe haittaohjelman tartuntaketjussa. Näiden skriptien tarkoitus on toimia varsinaisten haittaohjelmien lataajina. Haitalliset sähköpostit ovat yksi merkittävimmistä haittaohjelmien tartuntavektoreista. Haittaohjelmien tekijät käyttävät monia hämärtämis- ja muokkaustekniikoita tehdäkseen kustakin haittaohjelmasta ainutlaatuisen, jonka seurauksena näiden tiedostojen havaitseminen tutkimalla tiedoston staattista sisältöä on haastavaa. Tässä diplomityössä tutkitaan staattista haittaohjelmien tunnistusjärjestelmää, joka käyttää abstraktia syntaksipuuta (AST) samankaltaisten haittaohjelmatiedostojen havaitsemiseen. Tunnettujen haittaohjelmien abstraktit syntaksipuut klusteroidaan hakuavaruuden minimoimiseksi. Järjestelmää arvioidaan mittaamalla tunnistustarkkuutta ja sen yleistä suorituskykyä. Tämän diplomityön päätuloksena osoitamme, että abstrakti syntaksipuupohjainen haittaohjelmien tunnistusjärjestelmä on kykenevä tunnistamaan samankaltaisia haittaohjelmia, vaikka niihin olisi käytetty erilaisia muokkaustekniikoita. Lisäksi lähestymistapa parantaa havaitsemistarkkuutta verrattuna järjestelmään, joka käyttää ainoastaan merkkijonopohjaista samankaltaisuutta. Tuloksemme osoittavat myös, että AST:n muodostukseen käytettävää algoritmia on parannettava, jotta sitä voidaan käyttää reaalikaiseen haittaohjelmien monitorointiin.

Description

Supervisor

Ylä-Jääski, Antti

Thesis advisor

Kurimo, Eero

Keywords

malware detection, cluster analysis, abstract syntax tree, structural summaries

Other note

Citation