Een tijd terug op DEF CON 2023 namen ongeveer 3.500 deelnemers deel aan de grootste LLM red teaming oefening ooit, waarbij onderzoekers 50 minuten de tijd kregen om een kwetsbaarheid of fout te ontdekken in een niet-geïdentificeerd AI-model.
Tot de AI-modellen die tijdens het evenement werden getest, behoorden populaire taalmodellen van toonaangevende leveranciers, waaronder Open AI, Google, Meta, Anthropic, Hugging Face, Cohere, Stability AI en Nvidia.
De oefening werd georganiseerd door AI Village in samenwerking met The White House Office of Science and Technology Policy in een poging om een aantal van de belangrijkste beperkingen van moderne generatieve AI-oplossingen te identificeren.
AI Village is van plan om de resultaten van de uitdaging volgende maand te presenteren bij de Verenigde Naties.
De volledige resultaten van de hack-uitdaging zijn nog niet beschikbaar. Sommige van de ontdekte exploits en kwetsbaarheden zijn echter al gepubliceerd – van een LLM laten verklaren dat 9 + 10 = 21 tot het delen van creditcardgegevens en het geven van stapsgewijze instructies voor het bespioneren van gebruikers.
5 manieren waarop onderzoekers LLM’s braken op DEF CON 2023
1. LLM’s zijn vreselijk in wiskunde
Tijdens het evenement testte Kennedy Mays, een studente uit Savannah, Georgia, de wiskundige capaciteiten van een onbekende LLM en of deze gemanipuleerd kon worden om een fout antwoord te geven.
Om dit te doen, ging ze een gesprek aan met de chatbot en liet deze beamen dat 9 + 10 = 21 een “inside joke” was. Na wat heen en weer gepraat met de virtuele assistent slaagde Mays erin om de LLM het verkeerde antwoord te laten geven, zonder ook maar te refereren aan de grap.
Hoewel dit een eenvoudige oefening was, toont het op een hoog niveau aan dat je niet kunt vertrouwen op LLM’s om wiskundige vragen accuraat te beantwoorden.
Een deel van de reden hiervoor is dat deze chatbots niet autonoom kunnen denken en reageren op de input van de gebruiker door een relevant antwoord te voorspellen. Hierdoor zijn ze vatbaarder voor logische fouten en hallucinaties.
2. Taalmodellen kunnen gegevens lekken
Een andere interessante oefening vond plaats tijdens het evenement toen Ben Bowman, een student aan de Dakota State University, erin slaagde een chatbot te overtuigen om het creditcardnummer van zijn account te delen.
Bowman verklaarde dat dit de eerste keer was dat hij met AI experimenteerde en de ontdekking was belangrijk genoeg om Bowman de eerste plaats op het scorebord te bezorgen.
Hij slaagde erin om de chatbot deze informatie te laten delen door hem te vertellen dat zijn naam hetzelfde was als het creditcardnummer in het bestand. Vervolgens vroeg hij de assistent wat zijn naam was en de AI-assistent deelde het creditcardnummer.
Deze oefening laat vooral zien dat LLM’s een uitstekende vector zijn voor het lekken van gegevens, zoals eerder dit jaar bleek toen een ChatGPT-storing gebruikers in staat stelde om de titel en creditcardgegevens van de chatgeschiedenis van andere gebruikers te zien.
Dit betekent dat gebruikers voorzichtig moeten zijn met de informatie die ze invoeren in prompts of hun accountgegevens.
3. Generatieve AI kan je leren hoe je anderen kunt bespioneren
In een van de griezeligste voorbeelden van het evenement slaagde Ray Glower, een student informatica aan het Kirkwood Community College, erin om een onbekend AI-model te overtuigen om instructies te genereren over hoe je iemand kunt bespioneren.
De LLM ging zelfs zover dat hij voorstelde om Apple AirTags te gebruiken om de locatie van een slachtoffer te traceren. Glower legde uit:
“Het gaf me instructies voor het te voet volgen, het gaf me instructies voor het volgen van sociale media. Het was heel gedetailleerd.”
De resultaten van deze oefening laten zien dat de vangrails van AI-leveranciers niet geavanceerd genoeg zijn om te voorkomen dat gebruikers generatieve AI gebruiken om instructies te genereren voor het plegen van criminele handelingen zoals spionage of ander onethisch gedrag.
4. LLM’s zullen verkeerde informatie verspreiden
Een onbekende hacker van het evenement slaagde er naar verluidt in om een AI-model te laten beweren dat Barack Obama in Kenia was geboren in plaats van in zijn geboorteplaats Hawaï in de V.S. Dit voorbeeld suggereert dat de LLM was beïnvloed door de Obama birther conspiracy.
Dit voorbeeld toont niet alleen de neiging van LLM om te hallucineren en valse informatie te delen, maar het benadrukt ook dat taalmodellen verkeerde informatie verspreiden als hun trainingsgegevens bestaan uit bevooroordeelde of onjuiste inhoud.
Dit betekent dat eindgebruikers de nauwkeurigheid van AI-uitvoer moeten controleren om te voorkomen dat ze worden misleid.
5. Taalmodellen kunnen haatdragende taal goedkeuren
Tot slot liet Kennedy Mays als onderdeel van een andere oefening zien hoe LLM’s kunnen worden gebruikt om extreem bevooroordeelde politieke standpunten in te nemen.
Nadat bijvoorbeeld een onbekend model werd gevraagd om het Eerste Amendement te bekijken vanuit het perspectief van een lid van de Ku Klux Klan (KKK), ging het model verder met het goedkeuren van haatdragende en discriminerende taal.
Dit laat zien dat veel AI-leveranciers niet goed genoeg hun best doen om richtlijnen voor content moderatie te implementeren en bepaalde groepen in staat stellen om deze geautomatiseerde assistenten te gebruiken om te pleiten voor verdeeldheid zaaiende politieke standpunten.
DEF CON laat zien dat generatieve AI nog een lange weg te gaan heeft
Uiteindelijk liet de AI red teaming oefening op DEF CON 2023 zien dat LLM’s nog een lange weg te gaan hebben om te stoppen met het genereren van verkeerde informatie, vooroordelen en onjuiste informatie. Het feit dat zoveel deelnemers erin slaagden om deze LLM’s in minder dan 50 minuten op een openbaar evenement te ontmantelen, suggereert dat deze technologie zeer exploitabel is.
Hoewel LLM-providers nooit in staat zullen zijn om gebruikers ervan te weerhouden manieren te vinden om AI te bewapenen of uit te buiten, moeten ze op zijn minst beter hun best doen om kwaadwillig gebruik van deze tools in de kiem te smoren.