En algunos segmentos de la imaginación popular, la inteligencia artificial (IA) es omnisciente, todopoderosa y pronto librará al planeta de la inteligencia biológica inferior. Sin embargo, lo cierto es que la IA no es tan inteligente: en realidad, se la puede engañar con bastante facilidad.
A veces, los resultados pueden ser divertidos, pero otras no. El factor clave determinante será la forma en que desarrollemos e implementemos la IA para evitar que sea engañada y utilizada para engañar a otros.
Engaño inteligente
La IA ya ha demostrado que es perfectamente capaz de engañar a los humanos utilizando el engaño, la distracción e incluso la mentira descarada. Uno de los ejemplos más claros es un modelo llamado Cicero, desarrollado por Meta para jugar a un juego de conquista mundial llamado Diplomacia.
Como se explica en un artículo reciente en The Conversation, Cicero utiliza la mentira y el engaño para hacer creer a otros jugadores (humanos) que es su aliado cuando en realidad conspira con sus enemigos.
Por otra parte, grandes modelos lingüísticos como ChatGPT han logrado convencer a personas y a aplicaciones de comprobación de bots como Captcha de que eran humanos reales, no sólo por simple imitación, sino mintiendo intencionadamente.
Engañar a la IA una vez…
En respuesta a este subterfugio, muchas organizaciones están recurriendo a la IA para ayudar a determinar si el texto, el habla u otro contenido ha sido o no generado por la IA.
Los institutos, las universidades y otras instituciones educativas, por ejemplo, someten de forma rutinaria documentos escritos como trabajos trimestrales a la inspección de la IA.
Pero incluso en estos casos, los modelos de detección de IA resultan frustrantemente fáciles de engañar. Como mostró recientemente TechHQ.com, muchos pueden ser derrotados simplemente introduciendo pequeños cambios en el texto generado por la IA.
El grupo probó cinco de los principales detectores de contenido de IA, y todos funcionaron muy bien cuando examinaron texto de IA sin alterar.
Sin embargo, la certeza de sus conclusiones empezó a disminuir. Y cuando se introducían errores tipográficos reales, aumentaban su probabilidad de que se tratara de contenido generado por humanos.
IA envenenada e imágenes falsas
A veces, sin embargo, engañar a la IA puede verse de forma positiva, dependiendo de para qué esté entrenado un determinado modelo. Una nueva herramienta llamada Nightshade, desarrollada en la Universidad de Chicago, está diseñada para frustrar los programas inteligentes que rastrean la web para robar contenidos visuales con derechos de autor, como ilustraciones y fotografías.
Introduce «ataques de envenenamiento específicos» que engañan al modelo para que clasifique una imagen como otra cosa. En lugar de un edificio, por ejemplo, la imagen se registra como un animal o una planta.
Esto desestabiliza el entrenamiento del modelo y lo inutiliza para crear la imagen deseada. Su creador, Ben Zhao, afirma que sólo unos cientos de imágenes falsas pueden desestabilizar permanentemente un modelo, incluso los creados en plataformas populares como DALL-E, MidJourney y Stable Diffusion.
En última instancia, el objetivo es proporcionar un medio digital para proteger la propiedad intelectual de quienes la utilizarían para crear contenidos generados por IA.
Engaños cibernéticos
Es probable que burlar a la IA se convierta también en una faceta central de las ciberguerras en curso, y aquí es donde incluso herramientas aparentemente inocuas pueden convertirse en armas.
La Universidad de Sheffield ha realizado recientemente varias pruebas con sistemas de conversión de texto a SQL utilizados habitualmente en la formación de grandes modelos lingüísticos para traducir preguntas humanas en consultas a bases de datos.
Dependiendo de la redacción del texto, estos programas mostraron propensión a generar código capaz de robar datos, emitir código malicioso e incluso lanzar ataques de denegación de servicio.
En algunos casos, estos resultados surgen sin la comprensión o incluso el conocimiento de la persona que realizó la consulta. Una enfermera que quiera acceder a los historiales clínicos, por ejemplo, podría alterar una base de datos de forma que atascara su software de gestión.
Igualmente plausible es la introducción de software troyano en el modelo texto a SQL durante la fase de formación, que puede lanzarse automáticamente con una consulta concreta o algún otro desencadenante.
Conclusión
A pesar de todos los temores sobre la IA desbocada, sigue existiendo la expectativa de que al menos será capaz de actuar racionalmente, aunque con frialdad. Pero no es así. Como cualquier tecnología, está sujeta a los caprichos y manipulaciones de su operador.
Y a medida que la IA se introduce en el lugar de trabajo, así como en los hogares, los automóviles y otros lugares, las probabilidades de que un simple error del operador se convierta en un trastorno importante aumentarán a medida que tanto la IA como el usuario traten de entender lo que el otro está tratando de hacer y por qué.
Ésta seguirá siendo probablemente la diferencia entre la inteligencia artificial y la humana durante algún tiempo: cuando la IA engaña a las personas o a otros modelos de IA, lo hace porque ha sido entrenada para ello. Los humanos tienden a desarrollar este rasgo completamente solos.
Esto no hace que la IA sea ni más ni menos peligrosa de lo que imaginamos, pero sí permite comprender por qué se comporta como lo hace cuando practica el engaño.