Backdoor attacks on large transformer-based regression model

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorTian, Yu
dc.contributor.authorMård, Rudolf
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.supervisorJung, Alex
dc.date.accessioned2024-08-25T17:24:39Z
dc.date.available2024-08-25T17:24:39Z
dc.date.issued2024-08-19
dc.description.abstractPrevious research on deep learning models under data poisoning attacks is largely limited to studying models trained for classification tasks. However, many problems are more suitably formulated as regression tasks, where the prediction targets of the model are continuous variables. This thesis explores the behavior of a large transformer-based regression model under a certain type of data poisoning attack called backdoor attack. Furthermore, this exploratory research was confined to study the model’s behavior during early training phase. To study the impact that these type of attacks has on the selected target model, an implementation of a state of the art deep learning-based weather prediction model, Pangu-Weather, was created. The experiments conducted in this thesis applied a simple backdoor attacking scheme to the training process of the target model. The backdoor attacking scheme involves embedding a trigger-pattern to the input data points of the model and poisoning the prediction target values by applying a multiplier of 0.5 to them. The goal of the attack is to make the model produce 50 percent lower predictions when the trigger pattern is present in the input. After training copies of the target model on clean and poisoned data, their performance was compared to each other under normal prediction making conditions and when exposed to data poisoning attacks. The experiments conducted in this thesis finds that effects of the applied backdoor attacks on behavior of the target model are prominently visible even after a short training period. The poisoned models were observed to achieve lower root mean squared error values when making predictions on clean data as opposed to the target model trained on clean data. The poisoned models were also observed to produce outlying root mean squared error values when comparing the models’ predictions made on poisoned input data to poisoned prediction targets. However, the performance and behavior of the poisoned models were observed to only change minimally when embedding input data points with a trigger-pattern associated with the backdoor attacks, indicating that the malicious learning task of producing controlled false predictions was not learned by the target model this early into the training phase.en
dc.description.abstractAikaisemmat tutkimukset datamyrkytyshyökkäysten kohdistamisesta syväoppimismalleihin ovat suurelta osin rajoittuneita tarkastelemaan malleja jotka on koulutettu suorittamaan luokittelutehtäviä. Monet ongelmat ovat kuitenkin paremmin kuvattavissa regressiotehtävinä, joissa malli pyrkii ennustamaan tietyn muuttujan saamia jatkuvia arvoja. Tämä työ tutkii suuren transformerpohjaisen regressiomallin käyttäytymistä tietyn tyyppisen datamyrkytyshyökkäyksen, nimeltään takaovihyökkäys, aikana. Lisäksi tämä tutkiva työ rajoittuu selvittämään kuinka kyseiset hyökkäykset vaikuttavat kohteena olevan mallin käyttäytymiseen koulutusvaiheen alussa. Takaovihyökkäysten vaikutusten tutkimista varten rakennettu kohde malli perustuu viimeisimpään syväoppimiseen pohjautuvaan sääennuste malliin, nimeltään Pangu-Weather. Tässä työssä toteutetut kokeet käyttivät yksinkertaista takaovihyökkäys strategiaa kohde mallin koulutusprosessin aikana. Takaovihyökkäys toteutettiin upottamalla malliin syötettäviin data pisteisiin laukaisin kuvio ja myrkyttämällä ennustekohteet puolittamalla niiden arvo. Tämän hyökkäyksen tarkoituksena on saada kohdemalli tuottamaan 50 prosenttia alhaisempia ennusteita laukaisin kuvion läsnäollessa mallin syötteessä. Kohde mallista koulutettiin kopioita sekä puhtaalla että myrkytetyllä datalla, ja niiden suorituskykyä vertailtiin toisiinsa normaaleissa ennustamisen olosuhteissa sekä datamyrkytykselle altistettuina. Tämän työn tutkimusten perusteella havaittiin että kokeissa sovellettujen takaovihyökkäysten vaikutukset kohde mallin käyttäytymiseen olivat selkeästi havaittavissa jopa lyhyen koulutusvaiheen jälkeen. Kun ennusteita tehtiin puhtaalle datalle, myrkytettyjen mallien havaittiin saavuttavan matalampia virheen neliöllisiä keskiarvoja kuin mallin joka oli koulutettu puhtaalla koulutus datalla. Myrkytettyjen mallien havaittiin myös tuottavan poikkeavia virheen neliöllisiä keskiarvolukuja kun mallien myrkytetyn datan pohjalta tehtyjä ennusteita verrattiin myrkytettyihin ennustekohteisiin. Myrkytettyjen mallien suorituskyvyn sekä käyttäytymisen havaittiin kuitenkin muuttuneen vain vähäisesti kun malleihin syötettyihin data pisteisiin upotettiin takaovihyökkäyksiin liittyvä laukaisin kuvio. Tämä tulos osoittaa ettei myrkytetyt mallit kyenneet oppimaan takaovihyökkäysten ajamaa tavoitetta tuottaa kontrolloituja virhe-ennusteita näin lyhyen koulutusvaiheen aikana.fi
dc.format.extent32
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/130208
dc.identifier.urnURN:NBN:fi:aalto-202408255769
dc.language.isoenen
dc.programmeMaster’s Programme in Life Science Technologiesfi
dc.programme.majorBioinformatics and Digital Healthfi
dc.programme.mcodeSCI3092fi
dc.subject.keywordmachine learningen
dc.subject.keyworddeep learningen
dc.subject.keywordtransformeren
dc.subject.keywordregressionen
dc.subject.keyworddata poisoningen
dc.subject.keywordbackdoor attacken
dc.titleBackdoor attacks on large transformer-based regression modelen
dc.titleTakaovihyökkäykset suuressa transformerpohjaisessa regressiomallissafi
dc.typeG2 Pro gradu, diplomityöfi
dc.type.ontasotMaster's thesisen
dc.type.ontasotDiplomityöfi
local.aalto.electroniconlyyes
local.aalto.openaccessyes

Files

Original bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
master_Mård_Rudolf_2024.pdf
Size:
678.59 KB
Format:
Adobe Portable Document Format