Differentially private approximate Bayesian inference of probabilistic models

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Doctoral thesis (article-based) | Defence date: 2023-05-08

Date

2023

Major/Subject

Mcode

Degree programme

Language

en

Pages

70 + app. 78

Series

Aalto University publication series DOCTORAL THESES, 46/2023

Abstract

Learning population level characteristics from a set of individuals, belonging to the said population, is the typical aim of statistical inference. When the inference is based on confidential data, measures should be taken to make sure that sensitive data of none of the individuals can be deduced from the results of the statistical inference. In this thesis, I study approximate Bayesian inference under the strict privacy constraint of differential privacy (DP), which allows inferring many of the key features from the data while limiting the effect each individual has to the results, thus keeping the contribution to the analysis a secret. In this thesis, I focus on two families of approximate Bayesian inference methods: variational inference (VI) and Markov chain Monte Carlo (MCMC). Both of these families of methods are applicable for a wide variety of probabilistic models and are widely applied in practice. However, these methods rely on individuals' data through the log-likelihood computation, thus creating a possible channel of privacy leakage. I demonstrate that for a stochastic gradient based VI algorithm, the privacy leakage can be limited with minor modifications to the algorithm that guarantee DP. For a specific type of MCMC algorithm we can have an even more striking result: the algorithm itself guarantees DP as long as the log-likelihood satisfies certain smoothness conditions. This property follows from carefully analyzing the noise arising from the stochasticity of the MCMC method. I show that this noise is enough to limit the individual sample's effect on the results and to guarantee DP. Finally, I study an important application of the DP probabilistic inference: producing privacy-preserving synthetic data. Privacy-preserving synthetic data is typically a data set drawn from a generative model trained under DP. Probabilistic models can be seen as a set of instructions for generating data. Therefore, the probabilistic models trained under DP with the aforementioned DP approximate Bayesian inference techniques can be used to produce DP synthetic data sets. I demonstrate how equipping the probabilistic models with prior information about the data generating process can drastically improve the downstream utility of the synthetic data without compromising the privacy further.

Tilastollisen päättelyn tyypillinen tavoite on oppia populaatiotason piirteitä joukosta populaatioon kuuluvien yksilöiden dataa. Päättelyn perustuessa arkaluontoiseen dataan, olisi syytä varmistaa, ettei datassa olevien yksilöiden tietoja voida päätellä tilastollisen analyysin lopputuloksesta. Tässä väitöskirjassa tutkin approksimatiivista Bayesilaista päättelyä tilastollisen yksityisyyden takaavan rajoitteen, differentiaalisen yksityisyyden (DY), alaisena. Tämän rajoitteen pätiessä, datasta voidaan päätellä useita oleellisia piirteitä ja samalla taata ettei datajoukossa olevien yksilöiten yksityisyys vaarannu analyysin tulosten seurauksena. Tässä väitöskirjassa keskityn kahteen päättely-metodi perheeseen, jotka kumpikin kuuluvat approksimatiivisen Bayes päättelyn piiriin. Nämä perheet ovat variaatio-oppiminen ja Monte Carlo Markov ketjuihin perustuvat metodit, joista kumpikin on sovellettavissa suureen osaan todennäköisyysmalleista ja ovat suosittuja käytännön sovelluksissa. Nämä päättely metodit kuitenkin vaativat dataa oppiakseen, ja näin ollen mahdollistavat arkaluontoisen tiedon vuotamisen päättelyn lopputuloksista. Tässä väitöskirjassa näytän, kuinka gradientti optimointiin perustuva variaatio-oppimis algoritmi voidaan helposti muokata takaamaan DY ja näin ollen suojaamaan yksityisyyttä. Markov ketjuihin perustuvalle päättelytekniikkalle näytän puolestaan hätkähdyttävämmän tuloksen, joka osoittaa että kyseinen metodi takaa itsessään DY:n mikäli pääteltävä malli täyttää tietyt säännöllisyysehdot. Tämä tulos saadaan johdettua analysoimalla metodin sisältämää stokastisuutta joka riittää turvaamaan DY:n. Lopuksi esittelen tärkeän käyttökohteen DY:n takaavalle todennäköisyyspäättelylle: yksityisyyttä suojaavan synteettisen datan tuottamisen. Tällaista dataa tuotetaan yleensä simuloimalla datajoukko generatiivisesta mallista jonka parametrit ovat optimoitu DY vaatimuksen mukaisesti. Todennäköisyysmalleja voidaan ajatella listana ohjeita datan generoimiseen. Näin ollen, todennäköisyysmalleja jotka on opittu käyttämällä DY:n suojaavaa approksimatiivista Bayesilaista päättelyä, voidaan käyttää synteettisen DY:n suojaavan datan tuottamiseen. Näytän kuinka sisällyttämällä etukäteisinformaatiota generatiivisesta prosessita todennäköisyysmalleihin ennen DY:n alaista oppimista voi merkittävästi parantaa generoidun synteettisen datan laatua ilman lisäkustannuksia yksityisyydestä.

Description

Supervising professor

Kaski, Samuel, Prof., Aalto University, Department of Computer Science, Finland

Thesis advisor

Kaski, Samuel, Prof., Aalto University, Department of Computer Science, Finland

Keywords

differential privacy, approximate Bayesian inference, differentiaalinen yksityisyys, approksimatiivinen Bayes-päättely

Other note

Parts

  • [Publication 1]: Joonas Jälkö, Onur Dikmen and Antti Honkela. Differentially Private Variational Inference for Non-conjugate Models. In Proceedings of the Thirty-Third Conference on Uncertainty in Artificial Intelligence (UAI 2017), Sydney, Australia, August 2017
  • [Publication 2]: Mikko Heikkilä, Joonas Jälkö, Onur Dikmen and Antti Honkela. Differentially Private Markov Chain Monte Carlo. In Advances in Neural Information Processing Systems 32 (NeurIPS 2019), Pages 4115-4125, Vancouver, Canada December 2019
  • [Publication 3]: Joonas Jälkö, Eemil Lagerspetz, Jari Haukka, Sasu Tarkoma, Antti Honkela and Samuel Kaski. Privacy-preserving data sharing via probabilistic modeling. Patterns, Volume 2, Issue 7, 100271, July 2021.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-202108048159
    DOI: 10.1016/j.patter.2021.100271 View at publisher
  • [Publication 4]: Joonas Jälkö, Lukas Prediger, Antti Honkela and Samuel Kaski. DPVIm: Differentially Private Variational Inference Improved. Submitted to a conference, October 2022

Citation