Machine unlearning: De cruciale vaardigheid om AI te trainen om te vergeten

Betrouwbaarheid
IN HET KORT

We zijn allemaal wel eens schuldig aan het bezitten van verkeerde informatie en het baseren van onze acties daarop. In de snel veranderende wereld van AI is er een belangrijke vaardigheid die mensen vaak vergeten, namelijk het vermogen om AI te leren gegevens te wissen wanneer dat nodig is.

Afleren of het vergeten van geleerde dingen is een belangrijke actie die kunstmatige intelligentie (AI) van tijd tot tijd moet ondergaan.

Machine unlearning wordt bij AI ook wel selectief geheugenverlies genoemd en kan om allerlei redenen nodig zijn, zoals het verwijderen van vooroordelen, het corrigeren van onnauwkeurigheden of het bijwerken van informatie.

Na verloop van tijd leert AI van gevarieerde en enorme hoeveelheden datasets en leert het onvermijdelijk vertekeningen, onnauwkeurigheden en discriminaties te vertonen. Deze uitingen kunnen gevaarlijk zijn en kunnen het doelwit zijn van kwaadwillende entiteiten.

Het afleren is echter een moeilijke taak. Gegevens kunnen bijvoorbeeld van invloed zijn op veel verschillende datasets en er zijn verschillende hulpmiddelen nodig voor verschillende modellen voor machine learning.

Toch is dingen afleren een van de belangrijke manieren om AI te verbeteren.

Wat is machine unlearning?

Laten we proberen machine unlearning te begrijpen aan de hand van een voorbeeld van de denkbeeldige John Smith.

John heeft veel geleerd over de voedselgewoonten van de mensen in een bepaalde regio, waardoor hij denkt dat de mensen slechte voedselgewoonten hebben.

Hij heeft geleerd van horen zeggen, ervaringen van anderen, de media en het internet, en al deze informatie heeft zijn mening gevormd.

Je kunt zeggen dat John’s kennis zijn mening bevooroordeeld, onjuist en zelfs lasterlijk heeft gemaakt.

Mensen die de voedselgewoonten van die regio uit hun eigen omgeving kennen, vinden dat veel van wat John gelooft niet waar en ongegrond is.

Als John uiteindelijk voor een langere periode het gebied bezoekt, hun eten eet en hun eetgewoonten ervaart, keert hij terug met een nieuw perspectief. Hij merkt dat zijn recente ervaringen zijn oude overtuigingen en gedachten in twijfel trekken of zelfs bijstellen. Hij heeft veel dingen die hij wist afgeleerd.

Met andere woorden, nieuwe data heeft de oude data vervangen.

Het afleren van kunstmatige intelligence (machine unlearning) gebeurt op een vergelijkbare manier. AI kan na verloop van tijd worden blootgesteld aan onjuiste en bevooroordeelde datasets en zijn onjuiste kennis na verloop van tijd versterken.

Soms moet AI de mogelijkheid hebben om een afleerprogramma te doorlopen waarbij oude datasets worden vervangen of bijgewerkt door nieuwe en nauwkeurigere datasets. Dit is een continu proces dat mogelijk regelmatig moet plaatsvinden.

Omstandigheden achter het machine unlearning

Het primaire doel is om onnauwkeurige en bevooroordeelde output te verwijderen, maar een ander punt van zorg kan zijn dat AI privégegevens kan lekken – en daarom moet die kennis worden “afgeleerd”.

Verschillende regelgevende instanties hebben bedrijven al gevraagd om gegevens die de privacy schenden te verwijderen.

In 2018 waarschuwde de toezichthouder voor gegevens in het Verenigd Koninkrijk dat bedrijven die AI gebruiken onder de GDPR zouden kunnen vallen. De Amerikaanse Federal Trade Commission (FTC) dwong Paravision, een bedrijf voor gezichtsherkenningssoftware, om een verzameling foto’s te verwijderen die ze hadden verzameld zonder het protocol te volgen en ook om de gegevens van het AI-programma dat op de foto’s was getraind te wijzigen.

Unlearning is een complexe aangelegenheid

Vanuit het perspectief van de bedrijven die AI-systemen trainen, creëren de omstandigheden die leiden tot afleren een problematische situatie.

Ten eerste leidt de noodzaak om privacy te beschermen tot voortdurende veranderingen in verschillende wetten, zoals de GDPR, en de bedrijven moeten hun AI-systemen laten aanpassen aan de regelgeving, wat kostbaar en tijdrovend kan zijn.

Twee, op dit moment betekent afleren dat je de gegevens uit de AI-systemen verwijdert en het systeem opnieuw traint. Daarbij komt nog de inspanning om de data te verwijderen van andere methoden die door de data wordt beïnvloed.

Dit betekent dat je te maken kunt krijgen met de mogelijkheid om opnieuw te trainen.

Waar mogelijk is het eenvoudiger om de betwiste gegevens te verwijderen, maar niet om het AI-systeem opnieuw te trainen.

Kun je data uit een AI-model vergeten zonder het te hertrainen?

Volgens Aron Roth, een onderzoeker op het gebied van AI unlearning aan de Universiteit van Pennsylvania, “kunnen we alle invloed van iemands gegevens verwijderen wanneer ze vragen om ze te verwijderen, maar de volledige kosten van het opnieuw trainen van nul vermijden?“. Er wordt namelijk hard gewerkt in die richting.

Een voorbeeld is een project van onderzoekers aan de universiteiten van Toronto en Wisconsin-Madison waarin ze meerdere kleinere projecten met datasets creëerden en deze combineerden tot een groter project.

Het onderzoeksartikel beschrijft het project als “een raamwerk dat het unlearnen versnelt door de invloed van een datapunt in de trainingsprocedurestrategisch te beperken”.

“Hoewel ons raamwerk toepasbaar is op elk leeralgoritme, is het ontworpen om de grootste verbeteringen te bereiken voor algoritmen zoals stochastische gradiëntdaling voor diepe neurale netwerken.

“Training vermindert de computationele overhead die gepaard gaat met unlearnen, zelfs in de slechtst denkbare situatie waarbij unlearnen uniform wordt aangevraagd in de hele trainingsset.”

Zijn er beperkingen?

De onderzoekers van de universiteiten van Harvard, Pennsylvania en Stanford wijzen op een beperking van de aanpak: als de data in een bepaalde volgorde wordt gewist, door een kwaadwillende of toevallig door een andere entiteit, kan het programma breken.

Afgezien hiervan is er nog een probleem: er moet worden geverifieerd of het AI-systeem met succes is afgeleerd.

Dit is niet om de intentie van het bedrijf in twijfel te trekken, maar om uit te zoeken of de inspanning om af te leren volledig is geslaagd.

Volgens Gautam Kamath, een professor aan de Universiteit van Waterloo: “Het voelt alsof het een eindje op weg is, maar misschien komen er uiteindelijk controleurs voor dit soort dingen.”

Andere ideeën zijn onder andere differentiële privacy, een techniek die wiskundige grenzen kan stellen aan hoeveel privégegevens een AI-systeem eigenlijk kan lekken. De techniek moet nog worden doorgelicht door verschillende experts voordat het succesvol kan worden uitgerold.

Conclusie

Unlearning bevindt zich in een beginstadium en het zal nog wel even duren voordat het wordt gezien als een volwassen en bewezen systeem waarmee AI-systemen niet alleen kunnen afleren, maar ook kunnen hertrainen met minimale inspanning.

Constante druk van regelgevende instanties, wetten, voorschriften en rechtszaken zullen de bedrijven die AI-systemen gebruiken scherp houden, vooral in regio’s zoals de Europese Unie (EU), waar strenge wetten zoals de GDPR worden gebruikt.

Afleren is uiterst complex en er zal dieper moeten worden ingegaan op hoe AI-systemen leren om erachter te komen hoe ze kunnen afleren.

Gerelateerde begrippen

Kaushik Pal
Technisch Architect
Kaushik Pal
Technisch Architect

Kaushik is een technisch architect en software consultant met meer dan 20 jaar ervaring in software analyse, ontwikkeling, softwarearchitectuur, ontwerp, testen en training. Hij is geïnteresseerd in nieuwe technologieën en innovatiegebieden. Hij richt zich op webarchitectuur, webtechnologieën, Java/J2EE, open source, WebRTC, Big Data en semantische technologieën. Kaushik is ook de oprichter van TechAlpine, een technologieblog/consultancy gevestigd in Kolkata. Het team van TechAlpine werkt voor verschillende klanten in India en daarbuiten. Het team heeft expertise in Java/J2EE/Open Source/Web/WebRTC/Hadoop/Big Data technologieën en het schrijven van technische artikels.