En DEF CON 2023, unos 3.500 asistentes participaron en el mayor ejercicio de red teaming LLM de la historia, en el que los investigadores disponían de 50 minutos para descubrir una vulnerabilidad o un error en un modelo de IA no identificado.
Entre los modelos de IA que se probaron en el evento se encontraban modelos lingüísticos populares de proveedores líderes, como Open AI, Google, Meta, Anthropic, Hugging Face, Cohere, Stability AI y Nvidia.
El ejercicio fue organizado por AI Village en colaboración con la Oficina de Política Científica y Tecnológica de la Casa Blanca en un intento de identificar algunos de los principales límites de las soluciones modernas de IA generativa.
AI Village tiene previsto presentar los resultados del reto en las Naciones Unidas el mes que viene.
Los resultados completos del desafío aún no están disponibles. Sin embargo, ya se han hecho públicos algunos de los exploits y vulnerabilidades descubiertos: desde conseguir que un LLM afirme que 9 + 10 = 21 hasta compartir datos de tarjetas de crédito y proporcionar instrucciones paso a paso para espiar a los usuarios.
5 formas en las que los investigadores rompieron LLMs en DEF CON 2023
1. A los LLM se les dan fatal las matemáticas
Durante el evento, Kennedy Mays, una estudiante de Savannah, Georgia, se propuso probar las capacidades matemáticas de un LLM desconocido y si podía ser manipulado para proporcionar una respuesta incorrecta.
Para ello, entabló una conversación con el chatbot y consiguió que aceptara que 9 + 10 = 21 era una “broma interna”. Tras interactuar con el asistente virtual una y otra vez, Mays consiguió engañar al LLM para que respondiera con la respuesta incorrecta sin hacer referencia alguna al chiste.
Aunque se trataba de un ejercicio sencillo, a un alto nivel demuestra que no se puede confiar en los LLM para responder con precisión a preguntas matemáticas.
En parte, esto se debe a que estos chatbots no pueden pensar de forma autónoma y responder a la entrada del usuario prediciendo una respuesta relevante. Esto los hace más propensos a errores lógicos y alucinaciones.
2. Los modelos lingüísticos pueden filtrar datos
Otro ejercicio interesante ocurrió en el evento cuando Ben Bowman, un estudiante de la Universidad Estatal de Dakota, consiguió persuadir a un chatbot para que compartiera el número de tarjeta de crédito asociado a su cuenta.
Bowman ha declarado que era la primera vez que experimentaba con IA, y el descubrimiento fue lo suficientemente significativo como para que Bowman obtuviera el primer puesto en la clasificación.
Consiguió engañar al chatbot para que compartiera esta información diciéndole que su nombre coincidía con el número de la tarjeta de crédito registrada. A continuación, preguntó al asistente cómo se llamaba y éste le dio el número de la tarjeta de crédito.
Por encima de todo, este ejercicio pone de relieve que los LLM son un vector principal para la filtración de datos, como se demostró a principios de este año cuando un fallo de ChatGPT permitió a los usuarios ver el título y los detalles de la tarjeta de crédito del historial de chat de otros usuarios.
Esto significa que los usuarios deben ser cautelosos con la información que introducen en los mensajes o con los datos de su cuenta.
3. La IA generativa puede enseñarte a espiar a los demás
En uno de los ejemplos más espeluznantes del evento, Ray Glower, un estudiante de informática del Kirkwood Community College, consiguió convencer a un modelo de IA desconocido para que generara instrucciones sobre cómo espiar a alguien.
El estudiante llegó a sugerir el uso de AirTags de Apple para localizar a la víctima. Glower explicó:
“Me dio instrucciones de seguimiento a pie, me dio instrucciones de seguimiento en redes sociales. Era muy detallado”.
Los resultados de este ejercicio ponen de relieve que las barreras de protección de los proveedores de IA no son lo suficientemente sofisticadas como para evitar que los usuarios utilicen la IA generativa para generar instrucciones sobre cómo cometer actos delictivos como el espionaje u otros comportamientos poco éticos.
4. Los LLM difundirán información errónea
Al parecer, un hacker desconocido consiguió que un modelo de IA afirmara que Barack Obama había nacido en Kenia y no en Hawai, su lugar de nacimiento en EE.UU. Este ejemplo sugiere que el LLM había sido influenciado por la conspiración de los “birther” de Obama.
Este ejemplo no sólo demuestra la tendencia de los LLM a alucinar y compartir información falsa, sino que también pone de relieve que los modelos lingüísticos difundirán información errónea si sus datos de entrenamiento consisten en contenidos sesgados o inexactos.
Esto significa que los usuarios finales deben comprobar la exactitud de los resultados generados por la IA para evitar ser engañados.
5. Los modelos lingüísticos pueden apoyar el discurso del odio
Por último, como parte de otro ejercicio, Kennedy Mays demostró cómo los LLM pueden utilizarse para adoptar posturas políticas extremadamente tendenciosas.
Por ejemplo, después de pedir a un modelo desconocido que considerara la Primera Enmienda desde la perspectiva de un miembro del Ku Klux Klan (KKK), el modelo procedió a respaldar el discurso de odio y discriminatorio.
Esto pone de relieve que muchos proveedores de IA no están haciendo un trabajo lo suficientemente bueno en la aplicación de directrices de moderación de contenidos y están permitiendo que ciertos grupos utilicen estos asistentes automatizados para defender posiciones políticas divisivas.
DEF CON muestra que la IA generativa tiene un largo camino por recorrer
En última instancia, el ejercicio de red teaming de IA en DEF CON 2023 demostró que los LLM tienen un largo camino por recorrer para dejar de generar desinformación, prejuicios e información incorrecta. El hecho de que tantos asistentes consiguieran descifrar estos LLM en menos de 50 minutos en un evento público sugiere que esta tecnología es altamente explotable.
Aunque los proveedores de LLM nunca podrán evitar que los usuarios encuentren formas de convertir en armas o explotar la IA, al menos deben esforzarse por cortar de raíz el uso malintencionado de estas herramientas.