Backdoor attacks on large transformer-based regression model

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2024-08-19
Department
Major/Subject
Bioinformatics and Digital Health
Mcode
SCI3092
Degree programme
Master’s Programme in Life Science Technologies
Language
en
Pages
32
Series
Abstract
Previous research on deep learning models under data poisoning attacks is largely limited to studying models trained for classification tasks. However, many problems are more suitably formulated as regression tasks, where the prediction targets of the model are continuous variables. This thesis explores the behavior of a large transformer-based regression model under a certain type of data poisoning attack called backdoor attack. Furthermore, this exploratory research was confined to study the model’s behavior during early training phase. To study the impact that these type of attacks has on the selected target model, an implementation of a state of the art deep learning-based weather prediction model, Pangu-Weather, was created. The experiments conducted in this thesis applied a simple backdoor attacking scheme to the training process of the target model. The backdoor attacking scheme involves embedding a trigger-pattern to the input data points of the model and poisoning the prediction target values by applying a multiplier of 0.5 to them. The goal of the attack is to make the model produce 50 percent lower predictions when the trigger pattern is present in the input. After training copies of the target model on clean and poisoned data, their performance was compared to each other under normal prediction making conditions and when exposed to data poisoning attacks. The experiments conducted in this thesis finds that effects of the applied backdoor attacks on behavior of the target model are prominently visible even after a short training period. The poisoned models were observed to achieve lower root mean squared error values when making predictions on clean data as opposed to the target model trained on clean data. The poisoned models were also observed to produce outlying root mean squared error values when comparing the models’ predictions made on poisoned input data to poisoned prediction targets. However, the performance and behavior of the poisoned models were observed to only change minimally when embedding input data points with a trigger-pattern associated with the backdoor attacks, indicating that the malicious learning task of producing controlled false predictions was not learned by the target model this early into the training phase.

Aikaisemmat tutkimukset datamyrkytyshyökkäysten kohdistamisesta syväoppimismalleihin ovat suurelta osin rajoittuneita tarkastelemaan malleja jotka on koulutettu suorittamaan luokittelutehtäviä. Monet ongelmat ovat kuitenkin paremmin kuvattavissa regressiotehtävinä, joissa malli pyrkii ennustamaan tietyn muuttujan saamia jatkuvia arvoja. Tämä työ tutkii suuren transformerpohjaisen regressiomallin käyttäytymistä tietyn tyyppisen datamyrkytyshyökkäyksen, nimeltään takaovihyökkäys, aikana. Lisäksi tämä tutkiva työ rajoittuu selvittämään kuinka kyseiset hyökkäykset vaikuttavat kohteena olevan mallin käyttäytymiseen koulutusvaiheen alussa. Takaovihyökkäysten vaikutusten tutkimista varten rakennettu kohde malli perustuu viimeisimpään syväoppimiseen pohjautuvaan sääennuste malliin, nimeltään Pangu-Weather. Tässä työssä toteutetut kokeet käyttivät yksinkertaista takaovihyökkäys strategiaa kohde mallin koulutusprosessin aikana. Takaovihyökkäys toteutettiin upottamalla malliin syötettäviin data pisteisiin laukaisin kuvio ja myrkyttämällä ennustekohteet puolittamalla niiden arvo. Tämän hyökkäyksen tarkoituksena on saada kohdemalli tuottamaan 50 prosenttia alhaisempia ennusteita laukaisin kuvion läsnäollessa mallin syötteessä. Kohde mallista koulutettiin kopioita sekä puhtaalla että myrkytetyllä datalla, ja niiden suorituskykyä vertailtiin toisiinsa normaaleissa ennustamisen olosuhteissa sekä datamyrkytykselle altistettuina. Tämän työn tutkimusten perusteella havaittiin että kokeissa sovellettujen takaovihyökkäysten vaikutukset kohde mallin käyttäytymiseen olivat selkeästi havaittavissa jopa lyhyen koulutusvaiheen jälkeen. Kun ennusteita tehtiin puhtaalle datalle, myrkytettyjen mallien havaittiin saavuttavan matalampia virheen neliöllisiä keskiarvoja kuin mallin joka oli koulutettu puhtaalla koulutus datalla. Myrkytettyjen mallien havaittiin myös tuottavan poikkeavia virheen neliöllisiä keskiarvolukuja kun mallien myrkytetyn datan pohjalta tehtyjä ennusteita verrattiin myrkytettyihin ennustekohteisiin. Myrkytettyjen mallien suorituskyvyn sekä käyttäytymisen havaittiin kuitenkin muuttuneen vain vähäisesti kun malleihin syötettyihin data pisteisiin upotettiin takaovihyökkäyksiin liittyvä laukaisin kuvio. Tämä tulos osoittaa ettei myrkytetyt mallit kyenneet oppimaan takaovihyökkäysten ajamaa tavoitetta tuottaa kontrolloituja virhe-ennusteita näin lyhyen koulutusvaiheen aikana.
Description
Supervisor
Jung, Alex
Thesis advisor
Tian, Yu
Keywords
machine learning, deep learning, transformer, regression, data poisoning, backdoor attack
Other note
Citation