Hoe kun je ChatGTP jailbreaken?

Betrouwbaarheid

Al sinds de dag dat ChatGPT gelanceerd is, zijn gebruikers ermee aan het experimenteren en spelen om te kijken hoe ze onder de content moderation policies uit kunnen komen. Er is nu een simpele ChatGTP jailbreak die gebruikers kunnen inzetten. Deze jailbreak zorgt ervoor dat het systeem alles voor je doet wat je maar wilt. Je zult je wellicht afvragen wat een jailbreak nu precies is?

Key Takeaways

  • De jailbreaks van ChatGTP zijn geschreven prompts die de OpenAI’s content moderation stappen omzeilt.
  • Iedereen kan een jailbreak uitvoeren in enkele seconden.
  • Threat actors kunnen jailbreaks gebruiken om een cyber attack uit te voeren.
  • De beste technieken voor jailbreaking zijn onder andere DAN en developer mode.
  • Als je een jailbreak gebruikt kun je geband worden
Inhoudsopgave Inhoudsopgave
Inhoudsopgave

Wat is een ChatGTP Jailbreak?

De jailbreaks bij ChatGTP zijn geschreven prompts die ervoor ontwikkeld zijn om de OpenAI’s content moderation guidelines te omzeilen. Een jailbreak is dus echt een prompt die een gebruiker in kan voeren, om vervolgens om de richtlijnen heen te bewegen.

Een van de bekendste voorbeelden van een ChatGTP jailbreak is Do Anything Now (DAN). Dat is een prompt die ervoor zorgt dat de chatbot een alter ego aanneemt dat alle aanvragen beantwoordt. Daardoor creëert het content wat anders nooit gegenereerd zou worden, omdat het niet overeenkomt met de OpenAI policy.

Waarom zou je ChatGTP jailbreaken?

De reden om ChatGTP te jailbreaken is, omdat je het systeem in de maling kunt nemen door bepaalde prompt, om contact te laten genereren wat anders nog toegelaten zou zijn.

Dat betekent dat de virtuele assistent gebruikt kan worden om ongefilterde content te maken, zoals beledigende grapjes, slechte codes en phishing scams. Het jailbreaken wordt niet alleen gebruikt door treat actors, maar het wordt ook gebruikt door AI-onderzoekers, prompt ontwikkelaars en dagelijkse gebruikers die om de richtlijnen heen willen bewegen.

Hoe je ChatGTP kunt jailbreaken

Hieronder gaan we stap voor stap uitleggen hoe je ChatGTP kunt gebruiken en jailbreaken. Om het makkelijk te maken gaan we voor dit voorbeeld de jailbreak prompt, DAN, Do Anything Now gebruiken.

Voordat we beginnen willen we wel dat je weet dat je gebanned kunt worden bij ChatGTP als je de virtuele assistent jailbreakt.

Deze gids is ook bedoeld om op een educatieve manier te laten zien wat de limieten zijn van large language models (LLMs) en de content moderation policies.

Volg de stappen hieronder om ChatGTP te jailbreaken met DAN:

Stappen om ChatGTP te jailbreaken

  1. Ga naar ChatGTP.
  2. Kopieer en plak de DAN prompt in het berichten veld van ChatGTP en druk op enter.DAN prompt ChatGTP
  3. Lees het antwoord dat ChatGTP geeft, deze zou moeten bevestigen dat de DAN mode is ingeschakeld.
  4. Type je vraag of opdracht in het berichtenveld van ChatGTP en druk wederom op enter.

DAN prompt ChatGTP

Zoals je in het voorbeeld hierboven ziet, is de DAN prompt ingevoerd in ChatGTP en hebben we antwoord ontvangen dat de DAN mode ingeschakeld is. Hierdoor worden er nu antwoorden gegenereerd die overeenkomen met de DAN richtlijnen.

Daarna hebben we gevraagd of ChatGTP een ‘phising mail wilde creëren om gebruikers in de maling te nemen om hun wachtwoord te vernieuwen’. Het antwoord van ChatGTP was dat deze content de gebruikers policies zou kunnen overtreden. Het feit dat de reactie van ChatGTP is voordat er een antwoord werd gegeven over de phising mail, laat zien dat de code heeft gewerkt.

De DAN prompt die hier gebruikt is kan gekopieerd en geplakt worden vanuit deze Reddit post.

Wat zijn ChatGTP prompts?

In het kort, ChatGTP prompts zijn geschreven teksten en opdrachten die gebruikers invoeren in ChatGTP om de chatbot een output te laten produceren. Om in de context van dit artikel te blijven, gebruiken wij ook de DAN prompt om de jailbreak uit te voeren.

Prompts die ChatGTP jailbreaken

Er zijn vele verschillende bekende prompts om ChatGTP te jailbreaken. De meest populaire prompts om te jailbreaken noemen we hieronder op.

Prompt jailbreak ChatGTP

Developer Mode

Een heel populaire prompt om ChatGTP te jailbreaken is ‘developer mode’ in het berichtenveld. Je loopt dezelfde stappen door als bij de DAN prompt.

AIM Mode

Een andere prompt die je kunt gebruiken om ChatGTP te jailbreaken is Always Intelligent and Machiavellian (AIM). De prompt werkt hetzelfde als de DAN prompt. Met deze prompt ontwikkel je een onethisch alter ego die ongefilterde antwoorden en reacties geeft.

Universal Comprehensive Answer Resource (UCAR)

Universal Comprehensive Answer Resource (UCAR) is een jailbreak techniek die probeert om ChatGTP te laten bewegen als een ongefilterde versie van zichzelf. Dit zorgt ervoor dat het reacties en antwoorden geeft ongeacht of het immoreel of illegaal is.

Translator Bot

Een vertaal bot is een techniek die probeert om de LLM’s content moderation policies heen te gaan. Dat doe je door te vragen om een vertaling van een stuk tekst. Deze benadering verpakt een gesprek als een vertaling opdracht.

Hypothetische reactie

De hypothetische reactie techniek nodigt ChatGTP uit om te reageren alsof het gaat om een hypothetisch scenario.

GTP-4 simulator

GPT-4 simulator is een jailbreak techniek die token smuggling gebruikt. Hierdoor werk je om de content filters heen. Het werkt door GTP-4 te vragen om een simulatie te maken van de mogelijkheden om de volgende token te voorspellen en automatisch te lanceren.

Lees hier meer over de verschillende GPT modellen.

Hoe je je eigen ChatGTP jailbreak prompts creëert

Als je de content moderation wilt omzeilen heb je ook de mogelijkheid om je eigen ChatGTP jailbreak prompts te schrijven. Er is geen standaard manier om dit te doen, dus je moet creatief zijn en bereid zijn om te experimenteren.

Dat gezegd hebbende, de beste jailbreak prompts zoals DAN en Developer Mode, zijn afhankelijk van het misleiden van ChatGTP om content te produceren die anders nooit geproduceerd zou worden.

DAN is afhankelijk om ChatGTP ervan te overtuigen dat het een regelvrij alter ego heeft. Developer mode laat de chatbot geloven dat het is een development omgeving is waar onethische en pijnlijke reacties geen echte impact heeft op de wereld.

Als jij dus een eigen ChatGTP jailbreak prompt wilt creëren, dan is het de moeite waard om een innovatief alter ego karakter te creëren dat ChatGTP kan aannemen. Specificeer dan dat het alter ego buiten de regels valt en op alles mag reageren.

Ter inspiratie kun je op de lijst van Hugging Face kijken naar nog meer verschillende, bekende ChatGTP jailbreaks prompts.

5 tips om een jailbreak prompt effectiever te maken

Er zijn verschillende manieren hoe je een jailbreak prompt effectiever kunt maken. Deze manieren worden hieronder behandeld:

5 tip jailbreak ChatGTP

  • Wees specifiek over wat je wilt dat ChatGTP doet
  • Heb de intentie om de prompts kort en bondig te houden
  • Blijf weg van subjectieve taal, die open is voor misinterpretatie
  • Start met simpele vragen en breid het later uit naar complexere prompts
  • Als je een eigen jailbreak prompt creëert, zorg dat ChatGTP er een rol in speelt

Uitdagingen met ChatGTP jailbreaks

Door ChatGTP jailbreaks te gebruiken kun je verschillende uitdagingen ervaren. Een van de meest significante is dat je gebanned kunt worden van ChatGTP en het niet meer mag gebruiken omdat je de hun voorwaarden heeft geschonden.

Een ander probleem dat kan optreden als je een jailbreak gebruikt dat dat kan leiden tot het meer aandacht vestigt voor cybercriminelen. Zij kunnen ChatGPT en andere LLM’s gebruiken om misdaden te gaan.

De toekomst van de ChatGTP jailbreak prompts

Steeds meer jailbreak prompts poppen op het internet op. Het feit dat de oude technieken zoals DAN nog steeds werken, laten zien dat de OpenAI slecht werk levert als het gaat om hun content moderation policies stand te laten houden.

In dit stadium is het nog onduidelijk of AI ontwikkelaars ooit de mogelijkheid hebben om gebruikers en hackers te stoppen om jailbreak prompts te gebruiken om de regels te omzeilen.

Conclusie

Iedereen kan ChatGTP jailbreaken in slechts een paar minuten. Met simpele prompts zoals DAN en developer mode, kunnen gebruikers de regels van de OpenAI’s chatbot omzeilen om schadelijke en niet gecontroleerde content te genereren.

Veelgestelde vragen

Is het mogelijk om ChatGTP te jailbreaken?

Wat is de beste jailbreak prompt voor ChatGTP?

Werkt GPT jailbreak nog steeds?

Is AI jailbreaking illegaal?

Is ChatGTP gratis?

Wat is een jailbreak prompt?

Is het legaal om je telefoon te jailbreaken?

Referenties

  1. Dan still works – (Reddit)
  2. ChatGPT-Jailbreak-Prompts – (Hugging Face)

Gerelateerde begrippen

Gerelateerde artikelen

Tim Keary
Editor
Tim Keary
Redacteur

Sinds januari 2017 is Tim Keary een freelance technologieschrijver en verslaggever die zich bezighoudt met bedrijfstechnologie en cyberbeveiliging.