The effect of privacy enhancing technologies on the quality of predictive models in healthcare - Cardiovascular disease models as an example

No Thumbnail Available

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis

Date

2024-09-18

Department

Major/Subject

Machine Learning, Data Science and Artificial Intelligence

Mcode

Degree programme

Master's Programme in Computer, Communication and Information Sciences

Language

en

Pages

85

Series

Abstract

The use of health data is highly regulated due to its personal and sensitive nature. Because of the regulation, health data must be analyzed in a secure manner so that the risks for data leakage or other security threats are minimized. Privacy enhancing technologies (PETs) can be utilized as a response to this need, since they comprise methods that enable the privacy protection of individuals by eliminating or minimizing personal data use and maximizing security. Since the use of PETs has become necessity due to the privacy preserving requirements, it is important to understand how their utilization affects machine learning or statistical analyses. For this end, the aim of this study was to investigate the effect of PETs on the quality of healthcare prediction models. The focus of the study was on cardiovascular risk prediction models that are usually based on logistic or time-to-event regression models. For the study, a synthetic cardiovascular data set was generated and split into different nodes, simulating distributed and siloed health data. Different PETs were tested by i) for comparison purposes, centralizing the data sets from the nodes and analyzing the centralized data without the use of any PETs, ii) applying k-anonymization or generating synthetic data before data centralization, and iii) constructing the models by federated learning approach, with and without differential privacy, i.e. constructing the models directly from the distributed data nodes. The results revealed that mainly the discriminatory performance of the models was affected, and from the tested methods federated learning preserves best the performance of the models. Addition of differential privacy to these models does not have major effect on their performance. Synthetic data generation resulted in worse performance than federated learning, and k-anonymization performed reasonably if the number of quasi-identifiers was limited. In conclusion, federated learning approach showed the most robust performance of the tested PETs, and is the preferred choice, if it can be applied in the operational environment.

Terveysdatan käyttö on tiukasti säänneltyä, koska se on arkaluontoista henkilötietoa, ja sitä tuleekin analysoida niin, että riskit tietovuodosta tai muista turvallisuusuhkista minimoidaan. Tähän tarkoitukseen voidaan hyödyntää yksityisyydensuojaa edistäviä menetelmiä, jotka edistävät yksityisyydensuojaa joko poistamalla tai vähentämällä tarvittavan datan käyttöä tai lisäämällä erilaisia turvamekanismeja. Koska näiden menetelmien käytöstä on tullut välttämätöntä terveysdatan analysoinnissa, on tärkeää ymmärtää, mikä on niiden vaikutus kun datoja analysoidaan tilastoanalyyseillä tai koneoppimismenetelmillä. Tämän tutkimuksen tarkoituksena oli selvittää, kuinka nämä menetelmät vaikuttavat terveydenhuollon ennustemallien laatuun. Tutkimuksessa keskityttiin erityisesti sydän- ja verisuonitautien ennustemalleihin, jotka perustuvat yleensä logistiseen regressiomalleihin tai elinaika-analyysimalleihin. Tutkimusta varten luotiin synteettinen data-aineisto, joka jaettiin erilaisiin solmuihin. Tämän tarkoituksena oli simuloida tilannetta, jossa terveysdatat sijaitsevat eri paikoissa. Yksityisyydensuojaa edistäviä menetelmiä testattiin i) vertailukohdaksi keskittämällä data-aineistot samaan paikkaan ja analysoimalla ne ilman näitä yksityisyydensuojaa edistäviä menetelmiä, ii) ennen keskittämistä ja analyysejä anonymisoimalla (k-anonymisointi) data-aineistot tai luomalla niistä synteettiset versiot ja iii) käyttämällä hajautetun oppimisen menetelmiä, eli luomalla mallit suoraan hajautetuista aineistoista. Tässä yhteydessä testattiin myös niin sanottua erotetun yksityisyyden menetelmää. Tulokset osoittivat, menetelmät vaikuttivat lähinnä mallien erottelukykyyn ja hajautetun oppimisen menetelmä säilyttää mallien laadun parhaiten. Erotetun yksityisyyden -menetelmän lisääminen malleihin ei merkittävästi vaikuttanut niiden suorituskykyyn. Synteettisen datan luominen laski mallien ennustetarkkuutta, mutta k-anonymisointi ei vaikuttanut suuresti, mikäli niin sanottujen kvasi-identifikaattoreiden lukumäärä oli pieni. Johtopäätöksenä todettiin, että testatuista menetelmistä hajautetun oppimisen menetelmä on suositeltavin vaihtoehto, mikäli käytännön tekniset rajoitteet mahdollistavat sen soveltamisen.

Description

Supervisor

Jung, Alex

Thesis advisor

Jung, Alex

Keywords

federated learning, differential privacy, k-anonymization, synthetic data, machine learning, predictive model

Other note

Citation