Benign and malicious network traffic classification using Internet of Things network traffic data

No Thumbnail Available

Files

URL

Journal Title

Journal ISSN

Volume Title

Sähkötekniikan korkeakoulu | Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.

Date

2024-05-24

Department

Major/Subject

Informaatioteknologia

Mcode

ELEC3015

Degree programme

Sähkötekniikan kandidaattiohjelma

Language

en

Pages

27

Series

Abstract

The increased usage and implementation of the Internet of Things (IoT) increases the need for improving information security since cyber-attacks pose a significant threat to poorly secured devices. The aim of this thesis is to compare ensemble methods, random forest, and adaptive boosting to detect common cyber-attacks from benign IoT network traffic activity. The considered cyber-attack classes are denial of service, reckon, and dictionary attacks. Basic classification theory is reviewed, focusing on ensemble methods and decision tree learning that have performed well in previous research in network traffic classification. For the experimental analysis an openly available IoT network traffic dataset is used. The IoT device environment emulates the conditions of a realistic home IoT network. Multiple common cyber-attacks are included in the dataset, enabling the implementation and evaluation of machine learning algorithms for classification tasks. Only 8 features are selected from the used dataset using a correlation matrix to limit the number of required computations, considering the limited processing capacity of simple IoT devices. The analysis implements the basic classification pipeline using cross-validation for hyperparameter tuning and verification. Performance is measured with a confusion matrix and relevant evaluation metrics based on it, such as accuracy, precision, recall, and F1-score. Additionally, precision-recall curves are used to evaluate the ensemble model's performance in classifying each class separately. The random forest model gained better results, with 98.6% accuracy and 98.2% F1-score, while adaptive boosting resulted in 97.2% accuracy and 96.6% F1-score. The results of this analysis indicate that ensemble methods work well in classifying IoT network traffic even when using a limited number of features and an imbalanced dataset. However, further research would be needed to explore the relationship between performance and computational burden in IoT device implementations.

Esineiden internetin (engl. Internet of Things) laajamittainen käyttö sekä integraatio ihmisten kotiverkkoihin, teollisuuden ohjausjärjestelmiin sekä lääketieteeseen lisää tarvetta kehittää järjestelmien tietoturvallisuutta. Verkkoliikenteen luokittelu perustuu tietoliikennepakettien ominaisuuksien analyysiin keräämällä näistä dataa laitteiden välisestä kommunikaatiosta. Kerätyn datan perusteella voidaan muodostaa matemaattinen funktio, jonka avulla eri verkkoliikenteen muotoja voidaan tunnistaa toisistaan sekä luokitella ne eri kategorioihin niitä vastaavien piirteiden mukaisesti. Näin vahinkoa aiheuttava verkkoliikenne voidaan tunnistaa ja uhkaan reagoida ennalta määrätyllä protokollalla sekä raportoida verkon käyttäjälle tapahtuneesta turvallisuusuhasta jatkotoimenpiteitä varten. Uhan kyberhyökkäyskategorian tunnistaminen mahdollistaa tarkemmin määritellyt toimenpiteet ja antaa käyttäjälle enemmän informaatiota siitä, millaisen hyökkäyksen kohteeksi järjestelmä on joutunut. Ohjatun oppimisen hyödyntäminen verkkoliikenteen muotojen tunnistamiseen toisistaan perustuu luokittelijan kykyyn oppia harjoitteludatan perusteella malli. Harjoitteludata sisältää selittävät piirteet sekä verkkoliikenteen muotoa kuvaavan manuaalisesti lisätyn leiman. Luokittelijan soveltuvuutta tosielämän sovelluksiin voidaan tämän jälkeen kokeilla erillisellä testidatalla, jota luokittelija ei ole vielä harjoittelun aikana nähnyt. Optimaalisen luokittelualgoritmin valinta verkkoliikenteen tunnistusta varten on tärkeää, niin riittävän suorituskyvyn, kuin myös laitteiden rajoitetun prosessointikyvyn huomioimisen näkökulmasta. Tämän kandidaatintyön tavoitteena on vertailla kahta yhtyeoppimisalgoritmia, joita on hyödynnetty laajasti verkkoliikenteen luokitteluun kirjallisuudessa. Viitattu aineisto koostuu niin tilastollista oppimista käsittelevistä perusteoksista kuin myös alan tutkimuspapereista. Aluksi käydään läpi ohjatun oppimisen perusperiaatteet sekä verkkoliikenteen käsitteiden ja kyberhyökkäyksien pääpiirteet. Tutkimuksessa käydään läpi yhtyeoppimismenetelmien satunnaismetsä (engl. random forest) ja adaptiivinen kehitys (engl. adaptive boosting) toimintaperiaatteet sekä päätöspuut (engl. decision tree), joista nämä monimutkaisemmat luokittelijat rakentuvat. Yhtyeoppimismenetelmien vertailu ja soveltuvuus esineiden internetin verkkoliikenteen luokittelua varten ovat analyysin keskiössä ja muodostavat kandidaatintyön tutkimuskysymykset. Analyysin tekoa varten hyödynnetään julkisesti saatavilla olevaa esineiden internetin kotiverkkoa mallintavaa dataa, josta muodostetaan neljä eri luokkaa: normaali verkkovirta, palvelunestohyökkäys, vakoiluhyökkäys sekä kirjastohyökkäys. Piirteitä datassa on 85 mukaan lukien verkkoliikenteen luokan osoittavan leiman. Näistä analyysin valitaan 8 piirrettä hyödyntäen korrelaatiomatriisia multikollineaarisuuden huomioimiseksi. Molemmille yhtyeoppimisalgoritmeille suoritetaan hyperparametrien optimointia 5-kertaisen ristiinvalidoinnin avulla ja parhaat hyperparametrit valitaan käytettäväksi algoritmeille erillisen testidatan luokkien ennustamiseen. Kokeellisen osuuden analyysin tuloksien perusteella yhtyeoppimismenetelmät vaikuttavat toimivan hyvin esineiden internetin verkkoliikenteen luokitteluun huolimatta pienestä määrästä hyödynnettyjä piirteitä sekä epätasapainoista dataa. Satunnaismetsä saavutti adaptiivista kehittämistä paremman suorituskyvyn testidatan luokittelussa. Tuloksien perusteella yhtyeoppimismentelmät vaikuttavat lupaavilta tavoilta parantaa esineiden internetin tietoturvallisuutta, mutta laskennallisen kuormituksen ja ennustuskyvyn suhdetta pitää vielä tutkia lisää jatkotutkimuksissa.

Description

Supervisor

Aalto, Samuli

Thesis advisor

Ollila, Esa

Keywords

machine learning, classification, random forest, adaptive boosting, internet of things

Other note

Citation