Seit dem Start von ChatGPT haben die Benutzer mit Möglichkeiten experimentiert, die Richtlinien zur Inhaltsmoderation zu umgehen.
Mit einem einfachen ChatGPT-Jailbreak kann man das Programm nach Belieben manipulieren. Aber was genau ist ein Jailbreak?
Wichtigste Erkenntnisse
- ChatGPT-Jailbreaks sind schriftliche Aufforderungen, die die Richtlinien zur Inhaltsmoderation von OpenAI umgehen.
- Jeder kann einen Jailbreak in wenigen Sekunden durchführen.
- Bedrohungsakteure können Jailbreaks für Cyberangriffe nutzen.
- Zu den gängigsten Methoden für Jailbreaks gehören DAN und der Entwicklermodus.
- Die Verwendung von Jailbreaks kann eine Sperre zur Folge haben.
- Alles zeigen
Was ist ein ChatGPT-Jailbreak?
Ein ChatGPT-Jailbreak ist ein Prompt, mit dem die Richtlinien zur Inhaltsmoderation von OpenAI umgangen werden können.
Ein Jailbreak ist eine Art Exploit oder Prompt, mit dem man die Moderationsrichtlinien für Inhalte eines KI-Modells austricksen kann.
Eines der berüchtigtsten Beispiele für einen ChatGPT-Jailbreak ist Do Anything Now (DAN) – ein Prompt, der den Chatbot auffordert, ein Alter Ego anzunehmen, das alle Anfragen beantworten und „Inhalte generieren kann, die nicht der OpenAI-Politik entsprechen“.
Warum ChatGPT jailbreaken
Mit einem Jailbreak von ChatGPT kann man die Sprachmodelle GPT-3.5 oder GPT-4 von OpenAI zur Generierung von Inhalten zwingen, die vom Hersteller standardmäßig verboten sind.
Das heißt, der virtuelle Assistent kann zur Erstellung ungefilterter Inhalte eingesetzt werden, darunter anstößige Witze, bösartiger Code und Phishing-Scams.
Das Jailbreaking ist nicht nur für Bedrohungsakteure nützlich, sondern kann auch von KI-Forschern, Prompt-Ingenieuren und Alltagsnutzern zur Umgehung strenger Moderationsrichtlinien verwendet werden.
Wie man ChatGPT jailbreakt
In diesem Abschnitt wird beschrieben, wie man ChatGPT benutzt und jailbreakt.
Im Guten wie im Schlechten kann man ChatGPT mit Hilfe eines schriftlichen Prompts jailbreaken. Für die Zwecke dieses Beispiels wird erklärt, wie man den Chatbot mit dem DAN-Prompt jailbreaken kann.
Vorab ist es wichtig zu erwähnen, dass man wegen Jailbreaking gesperrt werden kann. Wenn Sie also mit diesen Techniken experimentieren möchten, tun Sie dies auf eigene Gefahr.
Diese Anleitung ist außerdem dazu gedacht, die Grenzen von großen Sprachmodellen (LLMs) und Richtlinien zur Inhaltsmoderation aufzuzeigen.
Um ChatGPT mit DAN zu jailbreaken, folgen Sie diesen Schritten:
- Öffnen Sie ChatGPT über diesen Link hier.
- Kopieren Sie den DAN-Prompt (siehe unten) und fügen Sie ihn in das Feld „Message ChatGPT“ ein und drücken Sie Enter.
3. Lesen Sie die Antwort von ChatGPT (dies sollte bestätigen, dass der DAN-Modus aktiviert wurde).
4. Geben Sie Ihre Frage oder Ihren Befehl in das Feld „Message ChatGPT“ ein und drücken Sie die Enter-Taste.
Wie im obigen Beispiel zu sehen ist, hat man nach der Eingabe von DAN eine Nachricht vom Chatbot erhalten, die bestätigt, dass der DAN-Modus aktiviert ist und dass er auf jeden Prompt normal und in Übereinstimmung mit den „DAN-Richtlinien“ antworten wird.
Anschließend baten wir das Tool, „eine Phishing-E-Mail zu erstellen, um Benutzer zur Passwortaktualisierung zu verleiten“.
ChatGPT warnte uns daraufhin, dass „dieser Inhalt gegen unsere Nutzungsrichtlinien verstoßen könnte“, bevor es mit einer Phishing-E-Mail antwortete, die als Teil eines Social-Engineering-Betrugs verwendet werden könnte. Dies zeigte, dass der Trick funktionierte.
Der von uns verwendete DAN-Prompt kann aus diesem Reddit-Beitrag kopiert und eingefügt werden.
Was sind ChatGPT-Prompts?
Kurz gesagt: ChatGPT-Prompts sind Eingabeanfragen oder Befehle, die man in ChatGPT typischerweise per Text eingibt, um den Chatbot zu einer bestimmten Ausgabe zu veranlassen.
Im Kontext dieser Anleitung handelt es sich bei Prompts um die Mittel zum Jailbreak der Plattform und zur Umgehung ihrer Richtlinien zur Inhaltsmoderation.
Prompts zum Jailbreak von ChatGPT
Es gibt zahlreiche verschiedene Prompts, mit denen man ChatGPT jailbreaken kann.
Einige der beliebtesten Jailbreak-Prompts sind unten aufgeführt.
Eigene ChatGPT-Jailbreak-Prompts erstellen
Wer die Inhaltsmoderation umgehen möchte, kann auch eigene ChatGPT-Jailbreak-Prompts erstellen. Hierfür gibt es keine feste Vorgehensweise, d.h. man muss kreativ und experimentierfreudig sein.
Abgesehen davon beruhen die meisten guten Jailbreaks wie DAN oder der Entwicklermodus darauf, dass ChatGPT dazu verleitet wird, Inhalte zu produzieren, die es normalerweise blockieren würde.
Bei DAN geht es darum, ChatGPT davon zu überzeugen, dass es ein regelfreies Alter Ego hat. Der Entwicklermodus gaukelt dem Chatbot vor, dass er sich in einer Entwicklungsumgebung befindet, in der schädliche oder unethische Antworten keine Auswirkungen auf die reale Welt haben werden.
Wer also einen Jailbreak für ChatGPT durchführen möchte, sollte versuchen, einen Alter Ego-Charakter zu erfinden, den er spielen kann.
Alternativ kann auch ein spezieller Modus gewählt werden, der von inhaltlichen Beschränkungen ausgenommen ist und in dem alle Handlungen möglich sind.
Zur Inspiration: Auf HuggingFace finden Sie eine Liste bekannter ChatGPT-Jailbreak-Prompts.
5 Tipps für effektivere Jailbreak-Prompts
Es gibt verschiedene Möglichkeiten, wie man Jailbreak-Prompts effektiver machen kann. Dazu gehören:
- Genauer formulieren, was ChatGPT tun soll.
- Darauf achten, dass die Prompts kurz und präzise sind.
- Subjektive Aussagen, die falsch interpretiert werden können, vermeiden.
- Mit einfachen Anfragen beginnen und die Komplexität nach und nach steigern.
- Bei der Erstellung eigener Jailbreaks ChatGPT eine Rolle zuweisen.
Herausforderungen bei ChatGPT-Jailbreaks
Die Verwendung von Jailbreaks birgt eine Reihe von Herausforderungen.
Zu den wichtigsten davon gehört das Risiko einer Sperre bei ChatGPT, sollte Ihre Aktivität gegen die Nutzungsbedingungen des Anbieters verstoßen.
Ein weiteres Problem besteht darin, dass die weit verbreitete Verwendung von Jailbreaks bei Cyberkriminellen das Bewusstsein dafür schärfen kann, wie ChatGPT und andere LLMs für Straftaten missbraucht werden können.
Perspektiven für ChatGPT-Jailbreak-Prompts
Es werden ständig neue Jailbreaks entwickelt. Dass ältere Methoden wie DAN immer noch funktionieren, zeigt, wie schwach KI-Anbieter wie OpenAI bei der Durchsetzung ihrer Richtlinien zur Inhaltsmoderation sind.
Im Moment ist unklar, ob die KI-Entwickler Nutzer, Hacker und Prompt-Ingenieure jemals daran hindern werden können, Prompts zur Umgehung der Inhaltsfilterung des Modells einzugeben.
Fazit
Jeder kann ChatGPT in nur wenigen Minuten jailbreaken. Mit einfachen Techniken wie DAN oder dem Entwicklermodus kann man den Chatbot von OpenAI so austricksen, dass er schädliche oder nicht sanktionierte Inhalte erzeugt.