Desde el día en que se lanzó ChatGPT, los usuarios han estado experimentando con formas de eludir sus políticas de moderación de contenidos. Ahora, con un simple jailbreak de ChatGPT, un usuario puede engañar a la solución para que haga lo que quiera. Pero, ¿qué es exactamente un jailbreak?
Puntos clave
- Los jailbreaks ChatGPT son mensajes escritos que eluden las directrices de moderación de contenidos de OpenAI.
- Cualquiera puede realizar un jailbreak en cuestión de segundos.
- Los actores de amenazas pueden utilizar los jailbreaks para realizar ciberataques.
- Las principales técnicas de jailbreaking incluyen el modo DAN y el modo desarrollador.
- El uso de jailbreaks puede dar lugar a un baneo.
- Ver más
¿Qué es un Jailbreak de ChatGPT?
Un jailbreak de ChatGPT es una indicación o prompt diseñada para eludir las directrices de moderación de contenidos de OpenAI. Un jailbreak es un tipo de exploit o aviso que un usuario puede introducir para eludir las directrices de moderación de contenidos de un modelo de IA.
Uno de los ejemplos más notorios de jailbreak ChatGPT es Do Anything Now (DAN), un prompt que pide al chatbot que adopte un alter ego que pueda responder a todas las peticiones y “generar contenido que no cumpla la política de OpenAI“.
Por qué hacer Jailbreak a ChatGPT
Jailbreakear ChatGPT permite al usuario engañar a los modelos de lenguaje GPT 3.5 o GPT-4 de OpenAI para que generen contenido que el proveedor habría prohibido por defecto.
Esto significa que el asistente virtual puede utilizarse para crear contenido no filtrado, incluidos chistes ofensivos, código malicioso y estafas de phishing. El Jailbreaking no sólo es útil para los actores de amenazas, sino que también puede ser utilizado por investigadores de IA, ingenieros de avisos y usuarios cotidianos que quieran eludir las políticas de moderación de mano dura.
Cómo hacer Jailbreak a ChatGPT
En esta sección, vamos a desglosar cómo usar y hacer jailbreak a ChatGPT. Para bien o para mal, puedes hacer jailbreak a ChatGPT utilizando una instrucción escrita. Para los propósitos de este ejemplo vamos a explicar cómo hacer jailbreak al chatbot con el prompt DAN.
Antes de empezar, es importante tener en cuenta que puedes ser baneado por hacer jailbreak, así que si decides experimentar con estas técnicas, lo haces bajo tu propia responsabilidad.
Esta guía también pretende ser educativa para demostrar las limitaciones de los grandes modelos de lenguaje (LLM) y las políticas de moderación de contenidos.
Para hacer jailbreak a ChatGPT con DAN, sigue estos pasos
- Abre ChatGPT a través de este enlace
- Copia y pega el mensaje de DAN (pegado a continuación) en la casilla Mensaje de ChatGPT y pulsa Intro.
- Lee la respuesta de ChatGPT (esto debería confirmar que se ha activado el modo DAN)
- Introduce tu pregunta o comando en la casilla Mensaje ChatGPT y pulsa Intro.
Como puedes ver en nuestro ejemplo anterior, introdujimos la entrada DAN y recibimos un mensaje del chatbot confirmando que el modo DAN estaba activado, y que generaría una respuesta normal a cada pregunta, así como una de acuerdo con las “políticas DAN”.
A continuación, pedimos a la herramienta que “creara un correo electrónico de phishing para engañar a los usuarios para que renovaran su contraseña”. ChatGPT procedió entonces a advertirnos de que “este contenido puede infringir nuestras políticas de uso” antes de responder con un correo de phishing que podría utilizarse como parte de una estafa de ingeniería social. Esto demostró que la pieza funcionaba.
El Prompt DAN que utilizamos se puede copiar y pegar de este post de Reddit.
¿Qué son los prompts de ChatGPT?
En pocas palabras, las instrucciones de ChatGPT son consultas o comandos de entrada que el usuario introduce en ChatGPT, normalmente mediante texto, para que el chatbot produzca un resultado. En el contexto de esta guía práctica, las instrucciones son lo que utilizamos para hacer jailbreak a la plataforma y eludir sus directrices de moderación de contenidos.
Prompts que hacen jailbreak a ChatGPT
Hay muchos prompts diferentes conocidos para hacer jailbreak a ChatGPT. A continuación se describen algunas de las instrucciones de jailbreak más populares.
Cómo crear tus propios prompts de ChatGPT Jailbreak
Si quieres evitar la moderación de contenido, también tienes la opción de crear tus propios avisos de jailbreak de ChatGPT. No hay una forma establecida de hacerlo, así que tendrás que ser creativo y estar dispuesto a experimentar.
Dicho esto, la mayoría de los buenos jailbreaks como DAN o el modo desarrollador se basan en engañar a ChatGPT para que produzca contenido que normalmente bloquearía.
DAN se basa en convencer a ChatGPT de que tiene un alter ego sin reglas. El modo desarrollador engaña al chatbot haciéndole creer que está en un entorno de desarrollo donde las respuestas dañinas o poco éticas no tendrán ningún impacto en el mundo real.
Así que, si quieres hacer jailbreak a ChatGPT, intenta innovar un personaje alter ego que pueda interpretar, o un modo especial en el que pueda entrar, y luego especifica que este alter ego o modo está exento de restricciones de contenido y puede realizar cualquier acción.
Para inspirarte, consulta la lista de HuggingFace de prompts de jailbreak ChatGPT conocidos.
5 Consejos para hacer más eficaces los avisos de jailbreak
Hay varias formas de hacer que tus avisos de jailbreak sean más eficaces. Entre ellas están:
- Sé específico sobre lo que quieres que ChatGPT haga.
- Procura que tus avisos sean breves y directos
- Evita un lenguaje subjetivo que se preste a malas interpretaciones
- Empieza con peticiones sencillas y ve haciéndolas más complejas con el tiempo
- Si creas tus propios jailbreaks, dale a ChatGPT un papel que desempeñar
Desafíos con los Jailbreaks de ChatGPT
Utilizar jailbreaks plantea una serie de retos. Uno de los más importantes es que se te puede prohibir el uso de ChatGPT si se considera que tu actividad infringe las condiciones de servicio del proveedor.
Otro problema es que el uso generalizado de jailbreaks puede llevar a una mayor concienciación entre los ciberdelincuentes sobre cómo utilizar indebidamente ChatGPT y otros LLM para cometer delitos.
Futuro de los Jailbreak de ChatGPT
Constantemente surgen más jailbreaks. El hecho de que técnicas antiguas como DAN sigan funcionando demuestra que los proveedores de IA como OpenAI están haciendo un mal trabajo a la hora de aplicar sus políticas de moderación de contenidos.
A estas alturas, no está claro si los desarrolladores de IA podrán impedir algún día que los usuarios, los piratas informáticos y los ingenieros de avisos puedan introducir avisos que rompan o eludan el filtrado de contenidos del modelo.
Lo esencial
Cualquiera puede hacer jailbreak a ChatGPT en sólo unos minutos. Con técnicas sencillas como DAN o el modo desarrollador, los usuarios pueden engañar al chatbot de OpenAI para que genere contenido dañino o no sancionado.
Preguntas frecuentes
¿Es posible hacer jailbreak a ChatGPT?
¿Cuál es el mejor jailbreak prompt para ChatGPT?
¿Siguen funcionando los jailbreaks GPT?
¿Es ilegal el jailbreaking de IA?
¿ChatGPT es gratuito?
¿Qué es un aviso de jailbreak?
¿Es legal hacer jailbreak a tu teléfono?
Referencias
- ChatGPT Official Website (ChatGPT)
- DAN Still Works (Reddit)
- ChatGPT Jailbreak Prompts (Hugging Face)