Natural Language Processing in Adversarial Settings and Beyond: Benefits and Risks of Text Classification, Transformation, and Representation
Loading...
Journal Title
Journal ISSN
Volume Title
School of Science |
Doctoral thesis (article-based)
| Defence date: 2021-08-23
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Author
Date
2021
Major/Subject
Mcode
Degree programme
Language
en
Pages
148 + app. 138
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 94/2021
Abstract
Natural language processing (NLP) has developed significantly during recent years, with important consequences that extend beyond its immediate domain. The increased availability of NLP technologies has repercussions for information security and privacy in particular, both positive and negative. For example, classifying text based on semantic content or writing style has many benign uses, but also allows adversarial application for censorship or violations of privacy. Conversely, automatic text transformation can be used to perform model evasion attacks as well as defend against illegitimate profiling of text. This dissertation investigates the performance and security implications of NLP techniques across multiple tasks, with a focus on adversarial settings. We first explored how well state-of-the-art text classification techniques can detect various types of adversarial text, such as deception or hate speech. Here, we observed that classifiers tend to get caught on simple features regardless of model architecture, which can make them unreliable and vulnerable to evasion. Instead of complicating the model alone, increasing the training dataset is needed for improving performance. We further demonstrated that text transformation can successfully be used to expand training data artificially. However, some adversarial text classes – such as deception – are likely too context-dependent to be reliably detected by available techniques. We also applied text transformation to counteract classification, from both an attacker's and a defender's perspective. A major finding was that deep neural networks (DNNs) were unreliable at maintaining semantic content across transformations, in contrast to rule-based techniques that allow restrictive control of the output. On the other hand, DNNs are more flexible and can generate more variable texts than symbolic rules alone. This illustrates the complementary relationship between DNN-based and rule-based NLP, which speaks against discarding either. For mitigating model evasion, we show adversarial training to be beneficial against both kinds of techniques. Across both text classification and transformation tasks, the importance of input data representation becomes apparent. This has broad relevance in a variety of NLP settings. Motivated by recent developments in linguistic theory, we show that effective semantic representations can be attained with far fewer semantic roles than in prior formalisms. Based on this, we present a novel format that permits easy but highly detailed information retrieval, as well as straight-forward integration with DNNs as vectorized input. In addition to demonstrating the format's ability to retain information despite its structural simplicity, we applied it to parallel corpus extraction and text transformation tasks that resulted in multiple novel datasets we provide as open-access.Kieliteknologia (NLP) on kehittynyt merkittävästi viime vuosina, millä on seurauksia myös sen välittömien sovellusten ulkopuolella. NLP:n saatavuus on erityisen merkittävää tietoturvan ja yksityisyyden näkökulmasta, sekä positiivisessa että negatiivisessa mielessä. Esimerkiksi tekstien luokittelua merkityksen tai kirjoitustyylin perusteella voidaan hyödyntää monin tavoin, mutta se sallii myös vahingollisen käytön, kuten sensuurin tai yksityisyydenloukkaukset. Vastaavasti tekstin automaattista muokkausta voidaan käyttää sekä kiertohyökkäyksiin että puolustautumiseen tekstin asiatonta profilointia vastaan. Tämä väitöskirja tutkii NLP-menetelmien suoriutumista useissa tehtävissä ja tämän seurauksia koskien tietoturvaa, erityisesti hyökkäys-puolustusasetelmissa. Tarkastelimme aluksi, kykenevätkö johtavat NLP-menetelmät tunnistamaan haitallista tekstiä, kuten valheita tai vihapuhetta. Havaitsimme, että luokittelijat jäävät usein kiinni yksinkertaisiin piirteisiin riippumatta koneoppimismallista, mikä voi tehdä niistä epäluotettavia ja altistaa ne kiertohyökkäyksille. Mallin monimutkaistamisen sijaan tarvitaan harjoitusdatan lisäämistä. Osoitimme myös, että tekstin muokkaamista voi onnistuneesti käyttää harjoitusdatan synteettiseen laajentamiseen. Jotkin haitalliset tekstityypit – kuten valhe – ovat kuitenkin todennäköisesti liian kontekstiriippuvaisia, jotta niiden luotettava tunnistus olisi mahdollista nykymenetelmillä. Käytimme tekstin muokkausta myös luokittelun kiertämiseen sekä hyökkääjän että puolustautujan näkökulmasta. Oleellinen tulos oli, että syväoppivat neuroverkot (Deep Neural Network: DNN) eivät säilyttäneet semanttista sisältöä luotettavasti toisin kuin sääntöpohjaiset menetelmät, jotka sallivat tiukan kontrollin muokkauksista. Toisaalta DNN:t ovat joustavampia ja pystyvät tuottamaan vaihtelevampaa tekstiä kuin pelkät symboliset säännöt. Tämä osoittaa DNN:ien ja sääntöpohjaisen NLP:n vastavuoroisuudesta, mikä puoltaa sitä, ettei kumpaakaan tulisi hylätä. Kiertohyökkäyksen välttämiskeinona näytämme, että esimerkkihyökkäysten lisääminen harjoitusdataan on hyödyllistä kummankinlaisia tekniikoita vastaan. Datan esittämisen tärkeys nousee esiin sekä tekstin luokittelu- että muokkaustehtävissä. Tämä on oleellista monenlaisissa NLP-sovelluksissa. Viimeaikaisten kielitieteellisten kehitysten motivoimina näytämme, että ilmaisuvoimaisia semanttisia representaatioita on mahdollista tuottaa käyttämällä huomattavasti vähemmän semanttisia rooleja kuin aiemmissa formalismeissa. Tämän pohjalta esitämme uuden formaatin, joka sallii helpon mutta tehokkaan tiedonhaun sekä suoraviivaisen integraation DNN:ien kanssa vektorisoidussa muodossa. Osoitamme kyseisen formaatin kyvyn säilyttää informaatiota yksinkertaisesta rakenteestaan huolimatta. Lisäksi sovelsimme sitä lauseparikorpuksien tuottamiseen ja tekstin muokkaukseen, mistä syntyneet useat uudet aineistot luovutamme saataville avoimesti.Description
Defence is held on 23.8.2021 12:00 – 16:00
via remote technology (Zoom), https://aalto.zoom.us/j/68871341754
Supervising professor
Asokan, N., Prof., University of Waterloo, Canada / Adj. Prof., Aalto University, Department of Computer Science, FinlandThesis advisor
Asokan, N., Prof., University of Waterloo, Canada / Adj. Prof., Aalto University, Department of Computer Science, FinlandKeywords
text classification, text transformation, text representation, model evasion, deception, hate speech, stylometry, style transfer, data augmentation, semantics, tekstin luokittelu, tekstin muunnos, tekstin representaatio, kiertohyökkäys, valehtelu, vihapuhe, stylometria, tyylimuunnos, data-augmentaatio, semantiikka
Other note
Parts
-
[Publication 1]: Tommi Gröndahl and N. Asokan.Text Analysis in Adversarial Settings: Does Deception Leave a Stylistic Trace?. ACM Computing Surveys, Volume 2, issue 3, pages 1–36, June 2019.
Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201909205300DOI: 10.1145/3310331 View at publisher
-
[Publication 2]: Tommi Gröndahl, Luca Pajola, Mika Juuti, Mauro Conti and N. Asokan. All You Need is “Love”: Evading Hate Speech Detection. In AISec ’18: Proceedings of the 11th ACM Workshop on Artificial Intelligence and Security, Toronto, Canada, pages 2–12, October 2018.
Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201901141101DOI: 10.1145/3270101.3270103 View at publisher
-
[Publication 3]: Tommi Gröndahl and N. Asokan. Effective Writing Style Transfer via Combinatorial Paraphrasing. In Proceedings of Privacy-enhancing Technologies, Montréal, Canada, pages 175–195, April 2020.
Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-2020123160213DOI: 10.2478/popets-2020-0068 View at publisher
-
[Publication 4]: Mika Juuti, Tommi Gröndahl, Adrian Flanagan and N. Asokan. A Little Goes a Long Way: Improving Toxic Language Classification Despite Data Scarcity. In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 2991–3009, November 2020.
Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-2020123160239DOI: 10.18653/v1/2020.findings-emnlp.269 View at publisher
- [Publication 5]: Tommi Gröndahl. EAT: A Simple and Versatile Semantic Representation Format for Multi-purpose NLP. Manuscript submitted for publication, 2021