Differentially private approximate Bayesian inference of probabilistic models

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorKaski, Samuel, Prof., Aalto University, Department of Computer Science, Finland
dc.contributor.authorJälkö, Joonas
dc.contributor.departmentTietotekniikan laitosfi
dc.contributor.departmentDepartment of Computer Scienceen
dc.contributor.labProbabilistic Machine Learning Groupen
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.schoolSchool of Scienceen
dc.contributor.supervisorKaski, Samuel, Prof., Aalto University, Department of Computer Science, Finland
dc.date.accessioned2023-04-25T09:00:10Z
dc.date.available2023-04-25T09:00:10Z
dc.date.defence2023-05-08
dc.date.issued2023
dc.description.abstractLearning population level characteristics from a set of individuals, belonging to the said population, is the typical aim of statistical inference. When the inference is based on confidential data, measures should be taken to make sure that sensitive data of none of the individuals can be deduced from the results of the statistical inference. In this thesis, I study approximate Bayesian inference under the strict privacy constraint of differential privacy (DP), which allows inferring many of the key features from the data while limiting the effect each individual has to the results, thus keeping the contribution to the analysis a secret. In this thesis, I focus on two families of approximate Bayesian inference methods: variational inference (VI) and Markov chain Monte Carlo (MCMC). Both of these families of methods are applicable for a wide variety of probabilistic models and are widely applied in practice. However, these methods rely on individuals' data through the log-likelihood computation, thus creating a possible channel of privacy leakage. I demonstrate that for a stochastic gradient based VI algorithm, the privacy leakage can be limited with minor modifications to the algorithm that guarantee DP. For a specific type of MCMC algorithm we can have an even more striking result: the algorithm itself guarantees DP as long as the log-likelihood satisfies certain smoothness conditions. This property follows from carefully analyzing the noise arising from the stochasticity of the MCMC method. I show that this noise is enough to limit the individual sample's effect on the results and to guarantee DP. Finally, I study an important application of the DP probabilistic inference: producing privacy-preserving synthetic data. Privacy-preserving synthetic data is typically a data set drawn from a generative model trained under DP. Probabilistic models can be seen as a set of instructions for generating data. Therefore, the probabilistic models trained under DP with the aforementioned DP approximate Bayesian inference techniques can be used to produce DP synthetic data sets. I demonstrate how equipping the probabilistic models with prior information about the data generating process can drastically improve the downstream utility of the synthetic data without compromising the privacy further.en
dc.description.abstractTilastollisen päättelyn tyypillinen tavoite on oppia populaatiotason piirteitä joukosta populaatioon kuuluvien yksilöiden dataa. Päättelyn perustuessa arkaluontoiseen dataan, olisi syytä varmistaa, ettei datassa olevien yksilöiden tietoja voida päätellä tilastollisen analyysin lopputuloksesta. Tässä väitöskirjassa tutkin approksimatiivista Bayesilaista päättelyä tilastollisen yksityisyyden takaavan rajoitteen, differentiaalisen yksityisyyden (DY), alaisena. Tämän rajoitteen pätiessä, datasta voidaan päätellä useita oleellisia piirteitä ja samalla taata ettei datajoukossa olevien yksilöiten yksityisyys vaarannu analyysin tulosten seurauksena. Tässä väitöskirjassa keskityn kahteen päättely-metodi perheeseen, jotka kumpikin kuuluvat approksimatiivisen Bayes päättelyn piiriin. Nämä perheet ovat variaatio-oppiminen ja Monte Carlo Markov ketjuihin perustuvat metodit, joista kumpikin on sovellettavissa suureen osaan todennäköisyysmalleista ja ovat suosittuja käytännön sovelluksissa. Nämä päättely metodit kuitenkin vaativat dataa oppiakseen, ja näin ollen mahdollistavat arkaluontoisen tiedon vuotamisen päättelyn lopputuloksista. Tässä väitöskirjassa näytän, kuinka gradientti optimointiin perustuva variaatio-oppimis algoritmi voidaan helposti muokata takaamaan DY ja näin ollen suojaamaan yksityisyyttä. Markov ketjuihin perustuvalle päättelytekniikkalle näytän puolestaan hätkähdyttävämmän tuloksen, joka osoittaa että kyseinen metodi takaa itsessään DY:n mikäli pääteltävä malli täyttää tietyt säännöllisyysehdot. Tämä tulos saadaan johdettua analysoimalla metodin sisältämää stokastisuutta joka riittää turvaamaan DY:n. Lopuksi esittelen tärkeän käyttökohteen DY:n takaavalle todennäköisyyspäättelylle: yksityisyyttä suojaavan synteettisen datan tuottamisen. Tällaista dataa tuotetaan yleensä simuloimalla datajoukko generatiivisesta mallista jonka parametrit ovat optimoitu DY vaatimuksen mukaisesti. Todennäköisyysmalleja voidaan ajatella listana ohjeita datan generoimiseen. Näin ollen, todennäköisyysmalleja jotka on opittu käyttämällä DY:n suojaavaa approksimatiivista Bayesilaista päättelyä, voidaan käyttää synteettisen DY:n suojaavan datan tuottamiseen. Näytän kuinka sisällyttämällä etukäteisinformaatiota generatiivisesta prosessita todennäköisyysmalleihin ennen DY:n alaista oppimista voi merkittävästi parantaa generoidun synteettisen datan laatua ilman lisäkustannuksia yksityisyydestä.fi
dc.format.extent70 + app. 78
dc.format.mimetypeapplication/pdfen
dc.identifier.isbn978-952-64-1211-5 (electronic)
dc.identifier.isbn978-952-64-1210-8 (printed)
dc.identifier.issn1799-4942 (electronic)
dc.identifier.issn1799-4934 (printed)
dc.identifier.issn1799-4934 (ISSN-L)
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/120501
dc.identifier.urnURN:ISBN:978-952-64-1211-5
dc.language.isoenen
dc.opnDe Cristofaro, Emiliano, Prof., University College London, UK
dc.publisherAalto Universityen
dc.publisherAalto-yliopistofi
dc.relation.haspart[Publication 1]: Joonas Jälkö, Onur Dikmen and Antti Honkela. Differentially Private Variational Inference for Non-conjugate Models. In Proceedings of the Thirty-Third Conference on Uncertainty in Artificial Intelligence (UAI 2017), Sydney, Australia, August 2017
dc.relation.haspart[Publication 2]: Mikko Heikkilä, Joonas Jälkö, Onur Dikmen and Antti Honkela. Differentially Private Markov Chain Monte Carlo. In Advances in Neural Information Processing Systems 32 (NeurIPS 2019), Pages 4115-4125, Vancouver, Canada December 2019
dc.relation.haspart[Publication 3]: Joonas Jälkö, Eemil Lagerspetz, Jari Haukka, Sasu Tarkoma, Antti Honkela and Samuel Kaski. Privacy-preserving data sharing via probabilistic modeling. Patterns, Volume 2, Issue 7, 100271, July 2021. Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-202108048159. DOI: 10.1016/j.patter.2021.100271
dc.relation.haspart[Publication 4]: Joonas Jälkö, Lukas Prediger, Antti Honkela and Samuel Kaski. DPVIm: Differentially Private Variational Inference Improved. Submitted to a conference, October 2022
dc.relation.ispartofseriesAalto University publication series DOCTORAL THESESen
dc.relation.ispartofseries46/2023
dc.revSheldon, Daniel, Assoc. Prof., University of Massachusetts Amherst, USA
dc.revAwan, Jordan, Asst. Prof., Purdue University, USA
dc.subject.keyworddifferential privacyen
dc.subject.keywordapproximate Bayesian inferenceen
dc.subject.keyworddifferentiaalinen yksityisyysfi
dc.subject.keywordapproksimatiivinen Bayes-päättelyfi
dc.subject.otherComputer scienceen
dc.titleDifferentially private approximate Bayesian inference of probabilistic modelsen
dc.titleDifferentiaalisesti yksityinen approksimatiivinen Bayes-päättely todennäköisyysmalleillefi
dc.typeG5 Artikkeliväitöskirjafi
dc.type.dcmitypetexten
dc.type.ontasotDoctoral dissertation (article-based)en
dc.type.ontasotVäitöskirja (artikkeli)fi
local.aalto.acrisexportstatuschecked 2023-05-11_1023
local.aalto.archiveyes
local.aalto.formfolder2023_04_25_klo_09_48
local.aalto.infraScience-IT

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
isbn9789526412115.pdf
Size:
3.45 MB
Format:
Adobe Portable Document Format