Differentiële privacy

Betrouwbaarheid

Wat is differentiële privacy?

Differentiële privacy is een wiskundig raamwerk voor het bepalen van een kwantificeerbaar en aanpasbaar niveau van privacybescherming. Het doel van differentiële privacy is om de ethische, reputatie- en financiële risico’s te verminderen van het delen of gebruiken van gegevens die gevoelige of persoonlijk identificeerbare informatie (PII) bevatten voor statistische analyse, gegevensanalyse en machinaal leren (ML).

In wezen kwantificeert differentiële privacy hoe moeilijk het voor iemand zou zijn om een geaggregeerde data-instantie te herleiden tot een specifiek individu.

Het raamwerk brengt de behoefte aan bruikbaarheid van gegevens in evenwicht met de behoefte aan gegevensprivacy en zorgt ervoor dat nuttige informatie uit grote datasets kan worden gehaald zonder iemands privacy in gevaar te brengen.

Techopedia legt uit

Hoewel traditionele methoden voor het anonimiseren van gegevens nog steeds een beschermingslaag kunnen bieden en als afschrikmiddel kunnen dienen voor cyberaanvallen op laag niveau, zijn ze niet robuust genoeg om de risico’s te beperken die gepaard gaan met koppelingsaanvallen waarbij aanvullende informatie wordt gebruikt om individuen opnieuw te identificeren.

Gedifferentieerde privacy beperkt het risico door ervoor te zorgen dat statistische en algoritmische resultaten niet worden beïnvloed door de gegevens van een individuele persoon in een dataset.

Meestal wordt hiervoor een gecontroleerde hoeveelheid willekeurige ruis toegevoegd aan de gegevens of de analyseresultaten. In deze context is ruis een opzettelijke verandering in gegevens of zoekresultaten die de aan- of afwezigheid van gegevens van een specifiek individu in een dataset maskeert.

Wat doet differentiële privacy?

Het raamwerk voor differentiële privacy biedt eigenaren en houders van gegevens een gestructureerde manier om aanvaardbare risico’s in te schatten en te beheersen, terwijl ervoor wordt gezorgd dat geaggregeerde gegevens hun nut behouden voor analyses en beslissingen op het gebied van machinaal leren.

De wiskundige benadering van het raamwerk heeft vier belangrijke voordelen ten opzichte van eerdere privacy technieken:

  1. Het gaat ervan uit dat alle informatie identificerende informatie is. Dit is een significante verschuiving ten opzichte van traditionele benaderingen die nodig zijn om bepaalde gegevensvelden te identificeren en te beschermen.
  2. Het gebruikt een privacy parameter om de vraag “Hoeveel privacy is genoeg?” te beantwoorden. De parameter stelt organisaties in staat om een kwantificeerbaar niveau van privacy te garanderen en het verlies van privacy over meerdere query’s te beheren.
  3. Het is bestand tegen koppeling aanvallen waarmee tegenstanders individuen opnieuw kunnen identificeren door geanonimiseerde gegevens te correleren met andere beschikbare gegevens.
  4. In het geval van een datalek kan de kwantificeerbare willekeurige ruis die door differentiële privacy wordt geïntroduceerd, mogelijk helpen om de gegevenshouder te beschermen tegen juridische en ethische gevolgen van de inbreuk.

Hoe werkt differentiële privacy?

Differentiële privacy maakt het statistisch onwaarschijnlijk voor een waarnemer om te bepalen of gegevens van een specifiek individu zijn meegenomen in een berekening. Het zorgt ervoor dat de aan- of afwezigheid van een enkel gegevenspunt geen significante invloed heeft op de uitkomst van statistische analyses, gegevens analyses of zoekopdrachten.

De meest basale techniek bestaat uit het toevoegen van gecontroleerde hoeveelheden willekeurige ruis aan de gegevens of de resultaten van een query. De ruis kan op verschillende manieren worden toegevoegd, afhankelijk van het specifieke differentiële privacy algoritme dat is gekozen.

Het Laplace-mechanisme is een van de populairste algoritmen om differentiële privacy te implementeren en willekeurige ruis toe te voegen. Het ruisniveau in dit mechanisme wordt bepaald door twee dingen: de gekozen privacyparameter en de gevoeligheid van de query of gegevensbewerking die wordt uitgevoerd.

Privacyparameter

De privacy parameter, die meestal wordt weergegeven door de Griekse letter epsilon (ε), kwantificeert het aanvaardbare niveau van privacyverlies voor elke query of wiskundige bewerking. Deze parameter beïnvloedt de hoeveelheid ruis die moet worden toegevoegd om privacy te garanderen, en het gebruik van ε door elke query draagt bij aan het totale privacyverliesbudget voor de dataset.

Het privacyverlies budget is de totale toegestane limiet van privacyverlies over meerdere query’s. Elke query verbruikt een deel van dit budget op basis van de ε waarde.

De keuze van ε wordt bepaald door de houder van de gegevens en houdt een afweging in tussen privacy en nut van de gegevens. Te veel ruis kan het nut van de gegevens verminderen, terwijl te weinig ruis de eigenaar of houder van de gegevens kan blootstellen aan financiële risico’s en reputatieschade.

Gevoeligheid

Gevoeligheid meet de maximale hoeveelheid die een query resultaat zou veranderen als een enkel record in de dataset zou worden opgenomen of uitgesloten.

De verandering wordt berekend door het grootste verschil in uitvoer te bepalen voor alle mogelijke paren van aangrenzende datasets.

In gevallen van hoge gevoeligheid, waar een enkele record de uitkomst aanzienlijk kan veranderen, is een grotere hoeveelheid ruis nodig om de invloed van een individuele record te verminderen en de privacy te behouden.

Term Beschrijving Rol in differentiële privacy
Privacy parameter (ε) Kwantificeert het aanvaardbare niveau van privacyverlies (budget voor privacyverlies). Bepaalt de hoeveelheid ruis die moet worden toegevoegd om een gewenst privacyniveau te garanderen.
Gevoeligheid Meet de maximale verandering in de uitvoer van een query als de gegevens van één individu worden toegevoegd of verwijderd. Beïnvloedt de omvang van de ruis die nodig is om privacy te garanderen. De schaal bepaalt de statistische spreiding van de geluidswaarden.

Hoe differentiële privacy implementeren?

hoe differentiële privacy implementeren

Differentiële privacy kan lokaal of globaal worden geïmplementeerd. Lokale differentiële privacy (LDP) vereist dat de eigenaar van de gegevens ruis toevoegt aan elke gegevensinstantie voordat hij zijn gegevens deelt. Deze aanpak garandeert privacy op het punt van verzameling.

Globale differentiële privacy (GDP) voegt daarentegen ruis toe aan de uitvoer van query’s op de gegevens. Bij deze aanpak, die ook wel centrale differentiële privacy wordt genoemd, blijven de oorspronkelijke gegevens onaangeroerd.

De keuze tussen LDP en GDP hangt vaak af van de specifieke privacy vereisten, de mate van vertrouwen in de entiteit die met de gegevens omgaat en de behoefte aan nauwkeurigheid van de gegevens.

Wat is de rol van differentiële privacy bij machinaal leren?

Differentiële privacy stelt machine learning algoritmen in staat om patronen te identificeren en te leren van gegevens zonder de specifieke details van individuele gegevenspunten te compromitteren.

In theorie betekent dit dat wanneer een differentieel privaat model voor machinaal leren wordt getraind, het moeilijk (zo niet onmogelijk) wordt voor aanvallers om het model om te bouwen en te proberen persoonlijke informatie te vinden in de trainingsgegevens.

Dit is belangrijk omdat een toenemend aantal wetten en regels op het gebied van gegevensprivacy organisaties verplichten om ervoor te zorgen dat persoonlijke gegevens niet zonder toestemming worden misbruikt of openbaar gemaakt. Gedifferentieerde privacy helpt organisaties gevoelige gegevens te gebruiken voor analytische en voorspellende doeleinden en toch te blijven voldoen aan de wettelijke mandaten.

Voorbeelden van bedrijven en marktsegmenten die differentiële privacy gebruiken

differentiële privacy bedrijven

Grote techbedrijven zoals Apple, Google en Microsoft gebruiken differentiële privacy om gegevens van eindgebruikers te beschermen wanneer ze informatie verzamelen voor productverbetering en gepersonaliseerde diensten.

Overheidsinstellingen gebruiken differentiële privacy ook om de privacy van mensen te beschermen wanneer ze statistische gegevens publiceren. Het U.S. Census Bureau is bijvoorbeeld begonnen met het gebruik van differentiële privacy om gevoelige informatie in volkstellingsgegevens te beschermen.

Andere voorbeelden van gebruik van differentiële privacy zijn:

  • Onderzoeksinstellingen: Academische onderzoekers en instellingen gebruiken differentiële privacy om gevoelige datasets te analyseren op gebieden zoals gezondheidszorg, sociale wetenschappen en economie met behoud van de vertrouwelijkheid van individuele deelnemers.
  • Sector gezondheidszorg: Ziekenhuizen en gezondheidsonderzoek organisaties passen differentiële privacy toe om medische gegevens te delen en te analyseren, de privacy van patiënten te waarborgen en te voldoen aan regelgeving zoals de HIPAA Privacy Rule.
  • Financiële instellingen: Banken en financiële bedrijven gebruiken differentiële privacy voor het analyseren van transactiegegevens en kredietrisico’s van klanten zonder individuele klantgegevens te onthullen.
  • Sociale mediaplatforms: Sommige sociale mediabedrijven zoals Facebook en Snapchat gebruiken differentiële privacy om gebruikersgegevens te analyseren op trends en inzichten terwijl de privacy van individuele gebruikers behouden blijft.
  • Bedrijven voor data-analyse en marktonderzoek: Deze bedrijven gebruiken differentiële privacy om consumentengedrag en markttrends te analyseren zonder de privacy van de individuen in hun datasets in gevaar te brengen.

Veelgestelde vragen

Wat is differentiële privacy in een notendop?

Wat is een voorbeeld van een differentieel privacy algoritme?

Wie gebruikt differentiële privacy?

Wat is differentiële privacy op een iPhone?

Gerelateerde begrippen

Margaret Rouse
Redacteur
Margaret Rouse
Redacteur

Margaret Rouse is een bekroond technisch schrijver en docent die bekend staat om haar vermogen om complexe technische onderwerpen uit te leggen aan een niet-technisch, zakelijk publiek. In de afgelopen twintig jaar is haar uitleg verschenen op vele websites en is ze als autoriteit aangehaald in artikelen van de New York Times, Time Magazine, USA Today, ZDNet, PC Magazine en Discovery Magazine. Margaret geniet ervan om IT- en business professionals te helpen om elkaars zeer gespecialiseerde talen te begrijpen. Als je een suggestie hebt voor een nieuwe definitie of hoe je een technische uitleg kunt verbeteren, stuur Margaret dan een…