Differentially private approximate Bayesian inference of probabilistic models
Loading...
URL
Journal Title
Journal ISSN
Volume Title
School of Science |
Doctoral thesis (article-based)
| Defence date: 2023-05-08
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2023
Major/Subject
Mcode
Degree programme
Language
en
Pages
70 + app. 78
Series
Aalto University publication series DOCTORAL THESES, 46/2023
Abstract
Learning population level characteristics from a set of individuals, belonging to the said population, is the typical aim of statistical inference. When the inference is based on confidential data, measures should be taken to make sure that sensitive data of none of the individuals can be deduced from the results of the statistical inference. In this thesis, I study approximate Bayesian inference under the strict privacy constraint of differential privacy (DP), which allows inferring many of the key features from the data while limiting the effect each individual has to the results, thus keeping the contribution to the analysis a secret. In this thesis, I focus on two families of approximate Bayesian inference methods: variational inference (VI) and Markov chain Monte Carlo (MCMC). Both of these families of methods are applicable for a wide variety of probabilistic models and are widely applied in practice. However, these methods rely on individuals' data through the log-likelihood computation, thus creating a possible channel of privacy leakage. I demonstrate that for a stochastic gradient based VI algorithm, the privacy leakage can be limited with minor modifications to the algorithm that guarantee DP. For a specific type of MCMC algorithm we can have an even more striking result: the algorithm itself guarantees DP as long as the log-likelihood satisfies certain smoothness conditions. This property follows from carefully analyzing the noise arising from the stochasticity of the MCMC method. I show that this noise is enough to limit the individual sample's effect on the results and to guarantee DP. Finally, I study an important application of the DP probabilistic inference: producing privacy-preserving synthetic data. Privacy-preserving synthetic data is typically a data set drawn from a generative model trained under DP. Probabilistic models can be seen as a set of instructions for generating data. Therefore, the probabilistic models trained under DP with the aforementioned DP approximate Bayesian inference techniques can be used to produce DP synthetic data sets. I demonstrate how equipping the probabilistic models with prior information about the data generating process can drastically improve the downstream utility of the synthetic data without compromising the privacy further.Tilastollisen päättelyn tyypillinen tavoite on oppia populaatiotason piirteitä joukosta populaatioon kuuluvien yksilöiden dataa. Päättelyn perustuessa arkaluontoiseen dataan, olisi syytä varmistaa, ettei datassa olevien yksilöiden tietoja voida päätellä tilastollisen analyysin lopputuloksesta. Tässä väitöskirjassa tutkin approksimatiivista Bayesilaista päättelyä tilastollisen yksityisyyden takaavan rajoitteen, differentiaalisen yksityisyyden (DY), alaisena. Tämän rajoitteen pätiessä, datasta voidaan päätellä useita oleellisia piirteitä ja samalla taata ettei datajoukossa olevien yksilöiten yksityisyys vaarannu analyysin tulosten seurauksena. Tässä väitöskirjassa keskityn kahteen päättely-metodi perheeseen, jotka kumpikin kuuluvat approksimatiivisen Bayes päättelyn piiriin. Nämä perheet ovat variaatio-oppiminen ja Monte Carlo Markov ketjuihin perustuvat metodit, joista kumpikin on sovellettavissa suureen osaan todennäköisyysmalleista ja ovat suosittuja käytännön sovelluksissa. Nämä päättely metodit kuitenkin vaativat dataa oppiakseen, ja näin ollen mahdollistavat arkaluontoisen tiedon vuotamisen päättelyn lopputuloksista. Tässä väitöskirjassa näytän, kuinka gradientti optimointiin perustuva variaatio-oppimis algoritmi voidaan helposti muokata takaamaan DY ja näin ollen suojaamaan yksityisyyttä. Markov ketjuihin perustuvalle päättelytekniikkalle näytän puolestaan hätkähdyttävämmän tuloksen, joka osoittaa että kyseinen metodi takaa itsessään DY:n mikäli pääteltävä malli täyttää tietyt säännöllisyysehdot. Tämä tulos saadaan johdettua analysoimalla metodin sisältämää stokastisuutta joka riittää turvaamaan DY:n. Lopuksi esittelen tärkeän käyttökohteen DY:n takaavalle todennäköisyyspäättelylle: yksityisyyttä suojaavan synteettisen datan tuottamisen. Tällaista dataa tuotetaan yleensä simuloimalla datajoukko generatiivisesta mallista jonka parametrit ovat optimoitu DY vaatimuksen mukaisesti. Todennäköisyysmalleja voidaan ajatella listana ohjeita datan generoimiseen. Näin ollen, todennäköisyysmalleja jotka on opittu käyttämällä DY:n suojaavaa approksimatiivista Bayesilaista päättelyä, voidaan käyttää synteettisen DY:n suojaavan datan tuottamiseen. Näytän kuinka sisällyttämällä etukäteisinformaatiota generatiivisesta prosessita todennäköisyysmalleihin ennen DY:n alaista oppimista voi merkittävästi parantaa generoidun synteettisen datan laatua ilman lisäkustannuksia yksityisyydestä.Description
Supervising professor
Kaski, Samuel, Prof., Aalto University, Department of Computer Science, FinlandThesis advisor
Kaski, Samuel, Prof., Aalto University, Department of Computer Science, FinlandKeywords
differential privacy, approximate Bayesian inference, differentiaalinen yksityisyys, approksimatiivinen Bayes-päättely
Other note
Parts
- [Publication 1]: Joonas Jälkö, Onur Dikmen and Antti Honkela. Differentially Private Variational Inference for Non-conjugate Models. In Proceedings of the Thirty-Third Conference on Uncertainty in Artificial Intelligence (UAI 2017), Sydney, Australia, August 2017
- [Publication 2]: Mikko Heikkilä, Joonas Jälkö, Onur Dikmen and Antti Honkela. Differentially Private Markov Chain Monte Carlo. In Advances in Neural Information Processing Systems 32 (NeurIPS 2019), Pages 4115-4125, Vancouver, Canada December 2019
-
[Publication 3]: Joonas Jälkö, Eemil Lagerspetz, Jari Haukka, Sasu Tarkoma, Antti Honkela and Samuel Kaski. Privacy-preserving data sharing via probabilistic modeling. Patterns, Volume 2, Issue 7, 100271, July 2021.
Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-202108048159DOI: 10.1016/j.patter.2021.100271 View at publisher
- [Publication 4]: Joonas Jälkö, Lukas Prediger, Antti Honkela and Samuel Kaski. DPVIm: Differentially Private Variational Inference Improved. Submitted to a conference, October 2022