Benign and malicious network traffic classification using Internet of Things network traffic data
No Thumbnail Available
Files
Nenonen_Sami_2024.pdf (8.8 MB) (opens in new window)
Aalto login required (access for Aalto Staff only).
URL
Journal Title
Journal ISSN
Volume Title
Sähkötekniikan korkeakoulu |
Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2024-05-24
Department
Major/Subject
Informaatioteknologia
Mcode
ELEC3015
Degree programme
Sähkötekniikan kandidaattiohjelma
Language
en
Pages
27
Series
Abstract
The increased usage and implementation of the Internet of Things (IoT) increases the need for improving information security since cyber-attacks pose a significant threat to poorly secured devices. The aim of this thesis is to compare ensemble methods, random forest, and adaptive boosting to detect common cyber-attacks from benign IoT network traffic activity. The considered cyber-attack classes are denial of service, reckon, and dictionary attacks. Basic classification theory is reviewed, focusing on ensemble methods and decision tree learning that have performed well in previous research in network traffic classification. For the experimental analysis an openly available IoT network traffic dataset is used. The IoT device environment emulates the conditions of a realistic home IoT network. Multiple common cyber-attacks are included in the dataset, enabling the implementation and evaluation of machine learning algorithms for classification tasks. Only 8 features are selected from the used dataset using a correlation matrix to limit the number of required computations, considering the limited processing capacity of simple IoT devices. The analysis implements the basic classification pipeline using cross-validation for hyperparameter tuning and verification. Performance is measured with a confusion matrix and relevant evaluation metrics based on it, such as accuracy, precision, recall, and F1-score. Additionally, precision-recall curves are used to evaluate the ensemble model's performance in classifying each class separately. The random forest model gained better results, with 98.6% accuracy and 98.2% F1-score, while adaptive boosting resulted in 97.2% accuracy and 96.6% F1-score. The results of this analysis indicate that ensemble methods work well in classifying IoT network traffic even when using a limited number of features and an imbalanced dataset. However, further research would be needed to explore the relationship between performance and computational burden in IoT device implementations.Esineiden internetin (engl. Internet of Things) laajamittainen käyttö sekä integraatio ihmisten kotiverkkoihin, teollisuuden ohjausjärjestelmiin sekä lääketieteeseen lisää tarvetta kehittää järjestelmien tietoturvallisuutta. Verkkoliikenteen luokittelu perustuu tietoliikennepakettien ominaisuuksien analyysiin keräämällä näistä dataa laitteiden välisestä kommunikaatiosta. Kerätyn datan perusteella voidaan muodostaa matemaattinen funktio, jonka avulla eri verkkoliikenteen muotoja voidaan tunnistaa toisistaan sekä luokitella ne eri kategorioihin niitä vastaavien piirteiden mukaisesti. Näin vahinkoa aiheuttava verkkoliikenne voidaan tunnistaa ja uhkaan reagoida ennalta määrätyllä protokollalla sekä raportoida verkon käyttäjälle tapahtuneesta turvallisuusuhasta jatkotoimenpiteitä varten. Uhan kyberhyökkäyskategorian tunnistaminen mahdollistaa tarkemmin määritellyt toimenpiteet ja antaa käyttäjälle enemmän informaatiota siitä, millaisen hyökkäyksen kohteeksi järjestelmä on joutunut. Ohjatun oppimisen hyödyntäminen verkkoliikenteen muotojen tunnistamiseen toisistaan perustuu luokittelijan kykyyn oppia harjoitteludatan perusteella malli. Harjoitteludata sisältää selittävät piirteet sekä verkkoliikenteen muotoa kuvaavan manuaalisesti lisätyn leiman. Luokittelijan soveltuvuutta tosielämän sovelluksiin voidaan tämän jälkeen kokeilla erillisellä testidatalla, jota luokittelija ei ole vielä harjoittelun aikana nähnyt. Optimaalisen luokittelualgoritmin valinta verkkoliikenteen tunnistusta varten on tärkeää, niin riittävän suorituskyvyn, kuin myös laitteiden rajoitetun prosessointikyvyn huomioimisen näkökulmasta. Tämän kandidaatintyön tavoitteena on vertailla kahta yhtyeoppimisalgoritmia, joita on hyödynnetty laajasti verkkoliikenteen luokitteluun kirjallisuudessa. Viitattu aineisto koostuu niin tilastollista oppimista käsittelevistä perusteoksista kuin myös alan tutkimuspapereista. Aluksi käydään läpi ohjatun oppimisen perusperiaatteet sekä verkkoliikenteen käsitteiden ja kyberhyökkäyksien pääpiirteet. Tutkimuksessa käydään läpi yhtyeoppimismenetelmien satunnaismetsä (engl. random forest) ja adaptiivinen kehitys (engl. adaptive boosting) toimintaperiaatteet sekä päätöspuut (engl. decision tree), joista nämä monimutkaisemmat luokittelijat rakentuvat. Yhtyeoppimismenetelmien vertailu ja soveltuvuus esineiden internetin verkkoliikenteen luokittelua varten ovat analyysin keskiössä ja muodostavat kandidaatintyön tutkimuskysymykset. Analyysin tekoa varten hyödynnetään julkisesti saatavilla olevaa esineiden internetin kotiverkkoa mallintavaa dataa, josta muodostetaan neljä eri luokkaa: normaali verkkovirta, palvelunestohyökkäys, vakoiluhyökkäys sekä kirjastohyökkäys. Piirteitä datassa on 85 mukaan lukien verkkoliikenteen luokan osoittavan leiman. Näistä analyysin valitaan 8 piirrettä hyödyntäen korrelaatiomatriisia multikollineaarisuuden huomioimiseksi. Molemmille yhtyeoppimisalgoritmeille suoritetaan hyperparametrien optimointia 5-kertaisen ristiinvalidoinnin avulla ja parhaat hyperparametrit valitaan käytettäväksi algoritmeille erillisen testidatan luokkien ennustamiseen. Kokeellisen osuuden analyysin tuloksien perusteella yhtyeoppimismenetelmät vaikuttavat toimivan hyvin esineiden internetin verkkoliikenteen luokitteluun huolimatta pienestä määrästä hyödynnettyjä piirteitä sekä epätasapainoista dataa. Satunnaismetsä saavutti adaptiivista kehittämistä paremman suorituskyvyn testidatan luokittelussa. Tuloksien perusteella yhtyeoppimismentelmät vaikuttavat lupaavilta tavoilta parantaa esineiden internetin tietoturvallisuutta, mutta laskennallisen kuormituksen ja ennustuskyvyn suhdetta pitää vielä tutkia lisää jatkotutkimuksissa.Description
Supervisor
Aalto, SamuliThesis advisor
Ollila, EsaKeywords
machine learning, classification, random forest, adaptive boosting, internet of things