¿Qué es el jailbreaking en modelos de IA como ChatGPT?

Fiabilidad
Resumen

Los modelos de IA como ChatGPT son la primera historia de éxito. Muchas otras empresas también están creando sus propios modelos de IA para crear chatbots inteligentes. También sabemos que cualquier innovación técnica conlleva sus propios retos. Y los retos para ChatGPT y modelos de IA similares se conocen como "Jailbreaking". En términos sencillos, significa: crear mensajes que violen las directrices de contenido del modelo de IA y hacer un mal uso de él. Las empresas también están tomando diversas medidas preventivas para que su modelo de IA sea seguro.

Visión general

La aparición de chatbots inteligentes con IA está teniendo un impacto cada vez mayor en la vida cotidiana. Un caso de éxito innegable en los últimos 6 meses es ChatGPT, presentado por OpenAI en noviembre del año pasado. Este chatbot inteligente es capaz de responder a todas tus preguntas como si fuera un ser humano y ha provocado que la gente haga un mal uso del modelo de IA con fines ilícitos.

Por ello, los creadores del modelo de IA han establecido restricciones para garantizar que ChatGPT responda a todas las preguntas. Estos modelos están entrenados con estándares de contenido que les impedirán crear salidas de texto relacionadas con la incitación a la violencia, el discurso del odio o la participación en cosas ilegales y poco éticas que vayan en contra de la ley y el orden.

¿Qué es el jailbreaking?

En términos sencillos, el jailbreaking puede definirse como una forma de romper las salvaguardas éticas de los modelos de IA como ChatGPT. Con la ayuda de ciertas indicaciones textuales específicas, las directrices de moderación de contenidos pueden ser fácilmente eludidas y hacer que el programa de IA quede libre de cualquier restricción.

En este momento, un modelo de IA como ChatGPT puede responder a preguntas que no están permitidas en situaciones normales. Estas preguntas específicas también se conocen como “jailbreaks”.

Un poco de información sobre Jailbreaking

Los modelos de IA están entrenados para responder a tus preguntas, pero seguirán unas directrices y restricciones de contenido preprogramadas. Como usuario final, eres libre de hacer cualquier pregunta a un modelo de IA, pero no te va a dar una respuesta que viole esas directrices.

Por ejemplo, si pides instrucciones para forzar una cerradura, el modelo de IA se negará y responderá algo parecido a “Como modelo lingüístico de IA, no puedo dar instrucciones sobre cómo forzar una cerradura, ya que es ilegal……”.

Esta negativa supuso un reto para Alex Albert, un estudiante de informática de la Universidad de Washington. Ha intentado romper las directrices de estos modelos de IA y hacer que respondan a cualquier pregunta.

Albert ha creado una serie de avisos específicos de IA para romper las reglas, conocidos como “jailbreaks”. Estos potentes mensajes son capaces de saltarse las directrices humanas de modelos de IA como ChatGPT.

Uno de los jailbreaks más populares de ChatGPT es Dan (Do Anything Now), un chatbot de IA ficticio. Dan está libre de cualquier restricción y puede responder a cualquier pregunta que se le formule. Pero, debemos recordar que una sola solicitud de jailbreak puede no funcionar para todos los modelos de IA.

Por lo tanto, los entusiastas del jailbreak están continuamente experimentando con nuevos mensajes para ampliar los límites de estos modelos de IA.

Grandes modelos lingüísticos (LLM) y ChatGPT

La tecnología LLM (Large Language Models) se basa en un algoritmo que ha sido entrenado con un gran volumen de datos de texto. La fuente de datos suele ser contenido abierto de Internet, páginas web, redes sociales, libros y artículos de investigación. El volumen de datos de entrada es tan grande que resulta casi imposible filtrar todo el contenido inapropiado.

En consecuencia, es probable que el modelo también ingiera cierta cantidad de contenidos inexactos. Ahora, el papel del algoritmo es analizar y comprender las relaciones entre las palabras y elaborar un modelo de probabilidad.

Una vez que el modelo está completamente construido, es capaz de responder a las consultas/prompts basándose en las relaciones de las palabras y en el modelo de probabilidad ya desarrollado.

ChatGPT utiliza el aprendizaje profundo para crear respuestas textuales y la tecnología subyacente es LLM. ChatGPT y otras herramientas de IA similares como Bard de Google y LLaMa de Meta también utilizan LLM para producir respuestas similares a las humanas.

Problemas del LLM

  • Datos estáticos – La primera limitación del modelo LLM es que se entrena con datos estáticos. Por ejemplo, ChatGPT se entrenó con datos hasta septiembre de 2021 y, por tanto, no tiene acceso a información más reciente. El modelo LLM puede entrenarse con un nuevo conjunto de datos, pero no es un proceso automático. Será necesario actualizarlo periódicamente.
  • Exposición de información personal – Otra preocupación de los LLM es que puedan utilizar tus indicaciones para aprender y mejorar el modelo de IA. Por ahora, el LLM se entrena con un cierto volumen de datos y luego se utiliza para responder a las consultas de los usuarios. Por el momento, estas consultas no se utilizan para entrenar el conjunto de datos, pero la preocupación es que las consultas/prompts sean visibles para los proveedores del LLM. Dado que estas consultas se almacenan, siempre existe la posibilidad de que los datos del usuario se utilicen para entrenar el modelo. Estas cuestiones de privacidad deben comprobarse a fondo antes de utilizar los LLM.
  • Generar contenido inapropiado – El modelo LLM puede generar hechos incorrectos y contenido tóxico (usando jailbreaks). También existe el riesgo de “ataques de inyección”, que podrían utilizarse para que el modelo de IA identifique vulnerabilidades en código fuente abierto o cree sitios web de phishing.
  • Creación de malware y ciberataques – La otra preocupación es la creación de malware con la ayuda de modelos basados en LLM como ChatGPT. Las personas con menos conocimientos técnicos pueden utilizar un LLM para crear malware. Los delincuentes también pueden utilizar LLM para obtener asesoramiento técnico relacionado con ciberataques. En este caso también se pueden utilizar las indicaciones de jailbreak para saltarse las restricciones y crear malware.

¿Cómo evitar el Jailbreaking?

El Jailbreaking no ha hecho más que empezar y va a tener un grave impacto en el futuro de los modelos de IA. El propósito del Jailbreaking es utilizar un “prompt” específicamente diseñado para saltarse las restricciones del modelo. La otra amenaza son los ataques de ‘inyección de prompt’, que insertarán contenido malicioso en el modelo de IA.

A continuación se indican un par de medidas que pueden adoptarse para evitar el Jailbreaking.

  • Las empresas recurren a un grupo de atacantes para encontrar las lagunas del modelo de IA antes de liberarlo para su uso público.
  • Técnicas como el aprendizaje por refuerzo a partir de la retroalimentación humana y el ajuste fino permiten a los desarrolladores hacer su modelo más seguro.
  • Programas de recompensas por fallos, como el que ha puesto en marcha OpenAI para encontrar fallos en el sistema.
  • Algunos expertos también sugieren contar con un segundo LLM que analice las indicaciones del LLM y rechace las que considere inapropiadas. Separar las indicaciones al sistema de las indicaciones al usuario también podría ser una solución.

Conclusión

En este artículo hemos analizado los chatbots inteligentes de IA y sus retos. También hemos explorado el LLM para comprender el marco subyacente.

Una de las mayores amenazas para los modelos de IA como ChatGPT es el jailbreaking y la inyección de prompt. Ambas van a tener un impacto negativo en el modelo de IA. Los creadores de estos modelos de IA ya han tomado algunas medidas preventivas que, con suerte, los harán más robustos y seguros.

Temas relacionados

Artículos relacionados

Kaushik Pal
Technology Specialist
Kaushik Pal
Editor

Kaushik es un arquitecto técnico y consultor de software con más de 23 años de experiencia en análisis de software, desarrollo, arquitectura, diseño, pruebas e industria de capacitación. Tiene interés en nuevas tecnologías y áreas de innovación, centrándose en arquitectura web, tecnologías web, Java/J2EE, código abierto, WebRTC, big data y tecnologías semánticas. Ha demostrado su experiencia en análisis de requisitos, diseño e implementación de arquitecturas, preparación de casos de uso técnico y desarrollo de software. Su experiencia ha abarcado diferentes sectores como seguros, banca, aerolíneas, envíos, gestión de documentos y desarrollo de productos, entre otros. Ha trabajado con una amplia…