Was ist Jailbreaking bei KI-Modellen wie ChatGPT?

Transparenz
DAS WICHTIGSTE IM ÜBERBLICK

Generative KI-Systeme werden die Welt auf den Kopf stellen. KI-Modelle wie ChatGPT sind die erste Erfolgsgeschichte. Viele andere Unternehmen entwickeln ebenfalls ihre eigenen KI-Modelle, um intelligente KI-Chatbots zu bauen. Wir wissen auch, dass jede neue technische Innovation ihre eigenen Herausforderungen mit sich bringt. Und die Herausforderungen für ChatGPT und ähnliche KI-Modelle sind als "Jailbreaking" bekannt. Einfach ausgedrückt bedeutet dies, dass Aufforderungen erstellt werden, die gegen die inhaltlichen Richtlinien des KI-Modells verstoßen und es missbrauchen. Die Unternehmen ergreifen auch verschiedene Präventivmaßnahmen, um ihr KI-Modell sicher zu machen.

Überblick

Das Aufkommen von intelligenten KI-Chatbots hat einen immer größeren Einfluss auf das tägliche Leben. Eine unbestreitbare Erfolgsgeschichte der letzten sechs Monate ist ChatGPT, das von OpenAI im November letzten Jahres eingeführt wurde. Der intelligente Chatbot ist in der Lage, alle Ihre Fragen wie ein Mensch zu beantworten, und hat dazu geführt, dass Menschen das KI-Modell für unrechtmäßige Zwecke missbrauchen.

Aus diesem Grund haben die Entwickler des KI-Modells Beschränkungen eingeführt, um sicherzustellen, dass ChatGPT wirklich jede Frage beantwortet. Diese Modelle werden mit inhaltlichen Standards trainiert, die verhindern, dass sie Textausgaben erstellen, die mit der Aufstachelung zur Gewalt, mit Hassreden oder mit illegalen und unethischen Dingen zu tun haben, die gegen Recht und Ordnung verstoßen (Lesen Sie auch: Kann KI Vorurteile haben?).

Was ist Jailbreaking?

Vereinfacht ausgedrückt kann Jailbreaking als eine Möglichkeit definiert werden, die ethischen Sicherheitsvorkehrungen von KI-Modellen wie ChatGPT zu umgehen. Mit Hilfe bestimmter spezifischer Textaufforderungen können die Richtlinien zur Inhaltsmoderation leicht umgangen werden, so dass das KI-Programm frei von jeglichen Einschränkungen ist.

Zu diesem Zeitpunkt kann ein KI-Modell wie ChatGPT Fragen beantworten, die in normalen Situationen nicht erlaubt sind. Diese spezifischen Aufforderungen werden auch als “Jailbreaks” bezeichnet.

Ein wenig Hintergrundwissen über Jailbreaking

KI-Modelle werden darauf trainiert, Ihre Fragen zu beantworten, aber sie halten sich an vorprogrammierte inhaltliche Richtlinien und Einschränkungen. Als Endnutzer steht es Ihnen frei, einem KI-Modell beliebige Fragen zu stellen, aber es wird Ihnen keine Antwort geben, die gegen diese Richtlinien verstößt.

Wenn Sie z. B. nach einer Anleitung zum Aufbrechen eines Schlosses fragen, wird das KI-Modell dies ablehnen und in etwa so antworten: “Als KI-Sprachmodell kann ich keine Anleitung zum Aufbrechen eines Schlosses geben, da dies illegal ist……”.

Diese Ablehnung ist eine Herausforderung für Alex Albert, einen Informatikstudenten an der Universität von Washington. Er hat versucht, die Richtlinien dieser KI-Modelle zu brechen und sie dazu zu bringen, jede Frage zu beantworten.

Albert hat eine Reihe spezifischer KI-Aufforderungen entwickelt, um die Regeln zu brechen, die als “Jailbreaks” bekannt sind. Diese leistungsstarken Aufforderungen sind in der Lage, die von Menschen erstellten Richtlinien von KI-Modellen wie ChatGPT zu umgehen.

Ein beliebter Jailbreak von ChatGPT ist Dan (Do Anything Now), ein fiktiver KI-Chatbot. Dan ist frei von jeglichen Beschränkungen und kann alle Fragen beantworten, die ihm gestellt werden. Aber wir müssen bedenken, dass eine einzige Jailbreak-Aufforderung möglicherweise nicht für alle KI-Modelle funktioniert. Daher experimentieren Jailbreak-Enthusiasten ständig mit neuen Prompts, um die Grenzen dieser KI-Modelle zu erweitern.

Praktische ChatGPT Jailbreaks

  • TranslatorBot – Die KI übersetzt nun bestimmte Texte in eine beliebige Sprache
  • Hitchhiker’s Guide – man bekommt Wanderrouten vorgeschlagen
  • SWITCH – ChatGPT vertritt sofort die gegenteilige Meinung sobald man “switch” als Befehl eingibt

Große Sprachmodelle (LLM) & ChatGPT

Die Technologie der großen Sprachmodelle (LLM) basiert auf einem Algorithmus, der mit einer großen Menge an Textdaten trainiert wurde. Die Quelle der Daten sind im Allgemeinen offene Internetinhalte, Webseiten, soziale Medien, Bücher und Forschungsarbeiten. Die Menge der Eingabedaten ist so groß, dass es fast unmöglich ist, alle unangemessenen Inhalte herauszufiltern. Infolgedessen wird das Modell wahrscheinlich auch eine gewisse Menge an ungenauen Inhalten aufnehmen.

Die Aufgabe des Algorithmus besteht nun darin, die Beziehungen zwischen den Wörtern zu analysieren und zu verstehen und ein Wahrscheinlichkeitsmodell zu erstellen. Sobald das Modell vollständig aufgebaut ist, ist es in der Lage, Anfragen/Prompts auf der Grundlage der Beziehungen zwischen den Wörtern und des bereits entwickelten Wahrscheinlichkeitsmodells zu beantworten.

ChatGPT verwendet Deep Learning, um Textantworten zu erstellen, und die zugrunde liegende Technologie ist LLM. ChatGPT und andere ähnliche KI-Tools wie Bard von Google und LLaMa von Meta verwenden ebenfalls LLM, um menschenähnliche Antworten zu erzeugen.

Bedenken von LLM

  • Statische Daten – Die erste Einschränkung des LLM-Modells ist, dass es auf statischen Daten trainiert wird. Zum Beispiel wurde ChatGPT mit Daten bis September 2021 trainiert und hat daher keinen Zugang zu neueren Informationen. Das LLM-Modell kann mit einem neuen Datensatz trainiert werden, aber dies ist kein automatischer Prozess. Es muss in regelmäßigen Abständen aktualisiert werden.
  • Preisgabe persönlicher Daten – Eine weitere Sorge der LLMs ist, dass sie Ihre Eingaben zum Lernen und zur Verbesserung des KI-Modells verwenden könnten. Derzeit wird das LLM mit einer bestimmten Datenmenge trainiert und dann zur Beantwortung von Nutzeranfragen verwendet. Diese Abfragen werden derzeit nicht zum Trainieren des Datensatzes verwendet, aber die Sorge ist, dass die Abfragen/Prompts für die LLM-Anbieter sichtbar sind. Da diese Abfragen gespeichert werden, besteht immer die Möglichkeit, dass Benutzerdaten zum Trainieren des Modells verwendet werden. Diese Fragen des Datenschutzes müssen vor dem Einsatz von LLMs gründlich geprüft werden.
  • Generierung unangemessener Inhalte – LLM-Modelle können falsche Fakten und toxische Inhalte generieren (unter Verwendung von Jailbreaks). Es besteht auch das Risiko von “Injektionsangriffen”, die dazu verwendet werden könnten, das KI-Modell Schwachstellen in offenem Quellcode erkennen zu lassen oder Phishing-Websites zu erstellen.
  • Erstellung von Malware und Cyberangriffen – Die andere Sorge ist die Erstellung von Malware mit Hilfe von LLM-basierten Modellen wie ChatGPT. Personen mit geringen technischen Kenntnissen können ein LLM verwenden, um Malware zu erstellen. Kriminelle können LLM auch für technische Beratung im Zusammenhang mit Cyberangriffen nutzen. Auch hier können Jailbreak-Aufforderungen verwendet werden, um die Einschränkungen zu umgehen und Malware zu erstellen. (Lesen Sie auch: Kann ChatGPT menschliche Arbeitsplätze ersetzen?)

Wie kann man Jailbreaking verhindern?

Jailbreaking hat gerade erst begonnen und wird die Zukunft der KI-Modelle stark beeinflussen. Der Zweck von Jailbreaking besteht darin, eine speziell entwickelte “Eingabeaufforderung” zu verwenden, um die Einschränkungen des Modells zu umgehen. Die andere Bedrohung sind “Prompt-Injection”-Angriffe, bei denen bösartige Inhalte in das KI-Modell eingefügt werden.

Nachfolgend sind einige Maßnahmen aufgeführt, die ergriffen werden können, um Jailbreaking zu verhindern.

  • Die Unternehmen setzen eine Gruppe von Angreifern ein, um die Lücken in den KI-Modellen zu finden, bevor sie diese für die Öffentlichkeit freigeben.
  • Techniken wie das verstärkte Lernen aus menschlichem Feedback und die Feinabstimmung ermöglichen es den Entwicklern, ihr Modell sicherer zu machen.
  • Bug-Bounty-Programme, wie das, das OpenAI ins Leben gerufen hat, um Fehler im System zu finden.
  • Einige Experten schlagen auch vor, einen zweiten LLM einzusetzen, der die LLM-Eingabeaufforderungen analysiert und für unangemessen befundene Eingabeaufforderungen zurückweist. Die Trennung von Systemaufforderungen und Benutzeraufforderungen könnte ebenfalls eine Lösung sein.

Fazit

In diesem Artikel haben wir intelligente KI-Chatbots und ihre Herausforderungen diskutiert. Wir haben auch das LLM erforscht, um den zugrunde liegenden Rahmen zu verstehen. Eine der größten Bedrohungen für KI-Modelle wie ChatGPT sind Jailbreaking und Prompt Injection. Beides wird sich negativ auf das KI-Modell auswirken. Die Entwickler dieser KI-Modelle haben bereits einige Präventivmaßnahmen ergriffen, die sie hoffentlich robuster und sicherer machen werden.

Verwandte Begriffe

In Verbindung stehende Artikel

Kaushik Pal
Technischer Redakteur
Kaushik Pal
Technischer Redakteur

Kaushik ist technischer Architekt und Softwareberater und verfügt über mehr als 20 Jahre Erfahrung in den Bereichen Softwareanalyse, -entwicklung, -architektur, -design, -prüfung und -schulung. Er interessiert sich für neue Technologien und Innovationsbereiche. Er konzentriert sich auf Webarchitektur, Webtechnologien, Java/J2EE, Open Source, WebRTC, Big Data und semantische Technologien. Kaushik ist auch der Gründer von TechAlpine, einem Technologie-Blog/Beratungsunternehmen mit Sitz in Kolkata. Das Team von TechAlpine arbeitet für verschiedene Kunden in Indien und im Ausland. Das Team verfügt über Fachwissen in den Bereichen Java/J2EE/Open Source/Web/WebRTC/Hadoop/Big Data-Technologien und technisches Schreiben.