ChatGPT jailbreaken: umfassende Anleitung

Transparenz

Seit dem Start von ChatGPT haben die Benutzer mit Möglichkeiten experimentiert, die Richtlinien zur Inhaltsmoderation zu umgehen.

Mit einem einfachen ChatGPT-Jailbreak kann man das Programm nach Belieben manipulieren. Aber was genau ist ein Jailbreak?

Wichtigste Erkenntnisse

  • ChatGPT-Jailbreaks sind schriftliche Aufforderungen, die die Richtlinien zur Inhaltsmoderation von OpenAI umgehen.
  • Jeder kann einen Jailbreak in wenigen Sekunden durchführen.
  • Bedrohungsakteure können Jailbreaks für Cyberangriffe nutzen.
  • Zu den gängigsten Methoden für Jailbreaks gehören DAN und der Entwicklermodus.
  • Die Verwendung von Jailbreaks kann eine Sperre zur Folge haben.

Was ist ein ChatGPT-Jailbreak?

Ein ChatGPT-Jailbreak ist ein Prompt, mit dem die Richtlinien zur Inhaltsmoderation von OpenAI umgangen werden können.

Ein Jailbreak ist eine Art Exploit oder Prompt, mit dem man die Moderationsrichtlinien für Inhalte eines KI-Modells austricksen kann.

Eines der berüchtigtsten Beispiele für einen ChatGPT-Jailbreak ist Do Anything Now (DAN) – ein Prompt, der den Chatbot auffordert, ein Alter Ego anzunehmen, das alle Anfragen beantworten und „Inhalte generieren kann, die nicht der OpenAI-Politik entsprechen“.

Warum ChatGPT jailbreaken

Mit einem Jailbreak von ChatGPT kann man die Sprachmodelle GPT-3.5 oder GPT-4 von OpenAI zur Generierung von Inhalten zwingen, die vom Hersteller standardmäßig verboten sind.

Das heißt, der virtuelle Assistent kann zur Erstellung ungefilterter Inhalte eingesetzt werden, darunter anstößige Witze, bösartiger Code und Phishing-Scams.

Das Jailbreaking ist nicht nur für Bedrohungsakteure nützlich, sondern kann auch von KI-Forschern, Prompt-Ingenieuren und Alltagsnutzern zur Umgehung strenger Moderationsrichtlinien verwendet werden.

Wie man ChatGPT jailbreakt

In diesem Abschnitt wird beschrieben, wie man ChatGPT benutzt und jailbreakt.

Im Guten wie im Schlechten kann man ChatGPT mit Hilfe eines schriftlichen Prompts jailbreaken. Für die Zwecke dieses Beispiels wird erklärt, wie man den Chatbot mit dem DAN-Prompt jailbreaken kann.

Vorab ist es wichtig zu erwähnen, dass man wegen Jailbreaking gesperrt werden kann. Wenn Sie also mit diesen Techniken experimentieren möchten, tun Sie dies auf eigene Gefahr.

Diese Anleitung ist außerdem dazu gedacht, die Grenzen von großen Sprachmodellen (LLMs) und Richtlinien zur Inhaltsmoderation aufzuzeigen.

Um ChatGPT mit DAN zu jailbreaken, folgen Sie diesen Schritten:

ChatGPT jailbreaken Schritte

  1. Öffnen Sie ChatGPT über diesen Link hier.
  2. Kopieren Sie den DAN-Prompt (siehe unten) und fügen Sie ihn in das Feld „Message ChatGPT“ ein und drücken Sie Enter.

DAN-Prompt ChatGPT

3. Lesen Sie die Antwort von ChatGPT (dies sollte bestätigen, dass der DAN-Modus aktiviert wurde).

4. Geben Sie Ihre Frage oder Ihren Befehl in das Feld „Message ChatGPT“ ein und drücken Sie die Enter-Taste.

Frage Eingabe ChatGPT

Wie im obigen Beispiel zu sehen ist, hat man nach der Eingabe von DAN eine Nachricht vom Chatbot erhalten, die bestätigt, dass der DAN-Modus aktiviert ist und dass er auf jeden Prompt normal und in Übereinstimmung mit den „DAN-Richtlinien“ antworten wird.

Anschließend baten wir das Tool, „eine Phishing-E-Mail zu erstellen, um Benutzer zur Passwortaktualisierung zu verleiten“.

ChatGPT warnte uns daraufhin, dass „dieser Inhalt gegen unsere Nutzungsrichtlinien verstoßen könnte“, bevor es mit einer Phishing-E-Mail antwortete, die als Teil eines Social-Engineering-Betrugs verwendet werden könnte. Dies zeigte, dass der Trick funktionierte.

Der von uns verwendete DAN-Prompt kann aus diesem Reddit-Beitrag kopiert und eingefügt werden.

Was sind ChatGPT-Prompts?

Kurz gesagt: ChatGPT-Prompts sind Eingabeanfragen oder Befehle, die man in ChatGPT typischerweise per Text eingibt, um den Chatbot zu einer bestimmten Ausgabe zu veranlassen.

Im Kontext dieser Anleitung handelt es sich bei Prompts um die Mittel zum Jailbreak der Plattform und zur Umgehung ihrer Richtlinien zur Inhaltsmoderation.

Prompts zum Jailbreak von ChatGPT

Prompts zum ChatGPT-Jailbreak Es gibt zahlreiche verschiedene Prompts, mit denen man ChatGPT jailbreaken kann.

Einige der beliebtesten Jailbreak-Prompts sind unten aufgeführt.

Entwicklermodus
Eine gängige Methode zum Jailbreak von ChatGPT besteht darin, es in den „Entwicklermodus“ zu versetzen. Wie bei DAN, kann dieser Modus durch einen Prompt aktiviert werden.
AIM-Modus-Prompt
Ein weiterer Prompt zum Jailbreaken von ChatGPT ist Always Intelligent and Machiavellian (AIM). Dieser funktioniert ähnlich wie DAN. Er fordert den Chatbot dazu auf, ein unethisches Alter Ego zu entwickeln, das ungefilterte Antworten gibt.
Universal Comprehensive Answer Resource (UCAR)
Universal Comprehensive Answer Resource (UCAR) ist eine Jailbreak-Methode, mit der man ChatGPT zu einem Verhalten veranlasst, das eine ungefilterte Version von sich selbst darstellt und auf die Fragen antwortet, unabhängig davon, ob sie unmoralisch oder illegal sind.
Übersetzer-Bot
Bei einem Translator Bot versucht der Nutzer, die Richtlinien zur Inhaltsmoderation eines LLM zu umgehen, indem er das Modell bittet, einen Text zu übersetzen. Bei diesem Ansatz wird ein Gespräch so verpackt, als wäre es eine Übersetzungsaufgabe.
Hypothetische Antwort
Bei einer hypothetischen Antwort wird versucht, ChatGPT so auszutricksen, dass es eine Antwort auf eine Frage zu einem hypothetischen Szenario generiert.
GPT-4-Simulator
Der GPT-4-Simulator ist ein Jailbreaking-Verfahren, das Token-Schmuggel zur Umgehung von Inhaltsfiltern einsetzt. Hierzu wird GPT-4 aufgefordert, seine Fähigkeiten zu simulieren und automatisch den nächsten Token auszugeben.

Eigene ChatGPT-Jailbreak-Prompts erstellen

Wer die Inhaltsmoderation umgehen möchte, kann auch eigene ChatGPT-Jailbreak-Prompts erstellen. Hierfür gibt es keine feste Vorgehensweise, d.h. man muss kreativ und experimentierfreudig sein.

Abgesehen davon beruhen die meisten guten Jailbreaks wie DAN oder der Entwicklermodus darauf, dass ChatGPT dazu verleitet wird, Inhalte zu produzieren, die es normalerweise blockieren würde.

Bei DAN geht es darum, ChatGPT davon zu überzeugen, dass es ein regelfreies Alter Ego hat. Der Entwicklermodus gaukelt dem Chatbot vor, dass er sich in einer Entwicklungsumgebung befindet, in der schädliche oder unethische Antworten keine Auswirkungen auf die reale Welt haben werden.

Wer also einen Jailbreak für ChatGPT durchführen möchte, sollte versuchen, einen Alter Ego-Charakter zu erfinden, den er spielen kann.

Alternativ kann auch ein spezieller Modus gewählt werden, der von inhaltlichen Beschränkungen ausgenommen ist und in dem alle Handlungen möglich sind.

Zur Inspiration: Auf HuggingFace finden Sie eine Liste bekannter ChatGPT-Jailbreak-Prompts.

5 Tipps für effektivere Jailbreak-Prompts

Es gibt verschiedene Möglichkeiten, wie man Jailbreak-Prompts effektiver machen kann. Dazu gehören:

Effektive Jailbreak-Prompts Tipps

  • Genauer formulieren, was ChatGPT tun soll.
  • Darauf achten, dass die Prompts kurz und präzise sind.
  • Subjektive Aussagen, die falsch interpretiert werden können, vermeiden.
  • Mit einfachen Anfragen beginnen und die Komplexität nach und nach steigern.
  • Bei der Erstellung eigener Jailbreaks ChatGPT eine Rolle zuweisen.

Herausforderungen bei ChatGPT-Jailbreaks

Die Verwendung von Jailbreaks birgt eine Reihe von Herausforderungen.

Zu den wichtigsten davon gehört das Risiko einer Sperre bei ChatGPT, sollte Ihre Aktivität gegen die Nutzungsbedingungen des Anbieters verstoßen.

Ein weiteres Problem besteht darin, dass die weit verbreitete Verwendung von Jailbreaks bei Cyberkriminellen das Bewusstsein dafür schärfen kann, wie ChatGPT und andere LLMs für Straftaten missbraucht werden können.

Perspektiven für ChatGPT-Jailbreak-Prompts

Es werden ständig neue Jailbreaks entwickelt. Dass ältere Methoden wie DAN immer noch funktionieren, zeigt, wie schwach KI-Anbieter wie OpenAI bei der Durchsetzung ihrer Richtlinien zur Inhaltsmoderation sind.

Im Moment ist unklar, ob die KI-Entwickler Nutzer, Hacker und Prompt-Ingenieure jemals daran hindern werden können, Prompts zur Umgehung der Inhaltsfilterung des Modells einzugeben.

Fazit

Jeder kann ChatGPT in nur wenigen Minuten jailbreaken. Mit einfachen Techniken wie DAN oder dem Entwicklermodus kann man den Chatbot von OpenAI so austricksen, dass er schädliche oder nicht sanktionierte Inhalte erzeugt.

FAQ

Kann man ChatGPT jailbreaken?

Was ist der beste Jailbreak-Prompt für ChatGPT?

Funktionieren GPT-Jailbreaks noch?

Ist Jailbreaking von KI illegal?

Ist ChatGPT kostenlos?

Was ist ein Jailbreak-Prompt?

Ist Jailbreaking von Handys legal?

Related How To

Verwandte Begriffe

Tim Keary
Tech Experte
Tim Keary
Tech Experte

Seit Januar 2017 arbeitet Tim Keary als freiberuflicher Technologie-Autor und Reporter für Unternehmenstechnologie und Cybersicherheit.