Text Anonymization: Developing a De-identification Interface

No Thumbnail Available

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2019-08-19

Department

Major/Subject

Computer Science

Mcode

SCI3042

Degree programme

Master’s Programme in Computer, Communication and Information Sciences

Language

en

Pages

64+10

Series

Abstract

The European Union enacted the General Data Protection Regulation 25 May 2018, enforcing a set of rules affecting the processing of personal data. One of the stipulations in the GDPR is the pseudo-anonymization of personal data, where the identifiers must be replaced with token names. In accordance with the regulation, Finlex, a databank service dedicated to legal texts, cannot publish case law documentation containing personal data. However, the databank has a massive quantity of files requiring anonymization, and processing them takes time. To expedite the de-identification process, the Semantic Computing Research Group (SeCo), is building an anonymization tool. The primary objective of this master's thesis is to develop an effective and GDPR compliant client-side interface for the SeCo's anonymization tool. Performance of the application is evaluated with two usability tests, usability inspection, and comparison with third-party systems. According to the second usability test, documents can be anonymized nearly ten times faster using the tool. Furthermore, tool-assisted anonymization produced fewer errors than manual anonymization. In both usability tests, the users reported significant improvement in user experience compared to the manual anonymization.

Euroopan unioni otti käyttöön yleisen tietosuoja-asetuksen 25. toukokuuta 2018, jossa määriteltiin henkilötietojen käsittelyyn tarkoitetut säännöt. Yksi yleisen tietosuoja-asetuksen ehdoista on henkilötietojen pseudonymisointi, missä tunnisteellinen tieto on korvattava peitetunnisteilla. Uusista säädöksistä johtuen Finlexin on pakko anonymisoida oikeusasiakirjat ennen niiden julkaisua. Finlexillä on kuitenkin valtava määrä oikeusasiakirjoja, joiden de-identifiointi ja käsittely vievät aikaa. Prosessin nopeuttamiseksi Semanttisen laskennan tutkimusryhmä (SeCo) kehittää tekstianonymisaatio työkalua. Diplomityön päätavoitteena on kehittää tehokas ja GDPR-yhteensopiva käyttöliittymä tutkimusryhmän työkalulle. Työkalun suorituskykyä arvioidaan kahdella käytettävyystestillä, käytettävyystutkimuksella ja vertailulla kolmannen osapuolen työkaluihin. Toisen käytettävyystestin mukaan asiakirjat voidaan anonymisoida lähes kymmenen kertaa nopeammin työkalun avulla. Lisäksi työkalun avulla suoritettu de-identifiointi tuotti vähemmän virheitä kuin ilman sovellusta tehty anonymisointi. Käyttäjät ilmoittivat molemmissa käytettävyystesteissä käyttökokemuksen huomattavasta paranemisesta käsintehtyyn de-identifiointiin verrattuna.

Description

Supervisor

Hyvönen, Eero

Thesis advisor

Tamper, Minna

Keywords

text anonymization, GDPR, f-measure, precision, generalization, k-anonymization

Other note

Citation