Como dice la vieja expresión, «una imagen vale más que mil palabras», y durante el último año, la multimodalidad -la capacidad de introducir entradas en múltiples formatos como texto, imagen y voz- está emergiendo como una necesidad competitiva en el mercado de los grandes modelos lingüísticos (LLM).
A principios de esta semana, Google anunció el lanzamiento de Google Assistant y Bard, un asistente personal basado en IA generativa que incluye Google Assistant y Bard juntos, lo que permitirá a los usuarios gestionar tareas personales mediante la introducción de texto, voz e imágenes.
Esto llega justo una semana después de que OpenAI anunciara el lanzamiento de GPT-4V, que permite a los usuarios introducir entradas de imagen en ChatGPT. También llega la misma semana en que Microsoft confirmó que los usuarios de Bing Chat tendrían acceso a la popular herramienta de generación de imágenes DALL-E 3.
Estos últimos lanzamientos de OpenAI, Google y Microsoft ponen de relieve que la multimodalidad se ha convertido en un componente crítico para la próxima generación de LLM y productos impulsados por LLM.
Entrenar a los LLM en entradas multimodales abrirá inevitablemente la puerta a una serie de nuevos casos de uso que no estaban disponibles con interacciones de texto a texto.
La era de los LLM multimodales
Aunque la idea de entrenar sistemas de IA en entradas multimodales no es nueva, 2023 ha sido un año crucial para definir el tipo de experiencia que ofrecerán los chatbots generativos de IA en el futuro.
A finales de 2022, el conocimiento generalizado de los chatbots de IA generativa estaba definido en gran medida por el recién lanzado ChatGPT, que proporcionaba a los usuarios un asistente virtual basado en texto verborreico al que podían hacer preguntas de forma muy similar a la búsqueda de Google (aunque la solución no estaba conectada a Internet en esta etapa).
Cabe destacar que los LLM de texto a imagen como DALL-E 2 y Midjourney se lanzaron antes, en 2022, y la utilidad de estas herramientas se limitaba a la creación de imágenes en lugar de proporcionar a los usuarios y trabajadores del conocimiento un recurso conversacional del modo en que lo hacía ChatGPT.
Fue en 2023 cuando la línea entre los chatbots de IA generativa centrados en el texto y las herramientas de conversión de texto en imágenes comenzó a difuminarse. Fue un proceso gradual, pero se puede ver que surgió después de que Google lanzara Bard en marzo de 2023 y posteriormente diera a los usuarios la posibilidad de introducir imágenes como entrada sólo dos meses después en Google I/O 2023.
En ese mismo evento, el CEO de Google, Sundar Pichai, señaló que la organización había formado Google DeepMind, reuniendo a sus equipos Brain y DeepMind para comenzar a trabajar en un modelo multimodal de próxima generación llamado Gemini, e informó que el equipo estaba «viendo impresionantes capacidades multimodales no vistas en modelos anteriores.»
En este punto de la carrera por el LLM, mientras ChatGPT y GPT4 seguían siendo las herramientas de IA generativa dominantes en el mercado, el soporte de Bard para la entrada de imágenes y la conexión a fuentes de datos en línea eran diferenciadores clave frente a competidores como OpenAI y Anthropic.
Microsoft también empezó a avanzar hacia la multimodalidad en julio, añadiendo soporte para la entrada de imágenes a su asistente virtual Bing Chat, que se lanzó en febrero de 2023.
Ahora, con los lanzamientos de GPT-4V y Assistant with Bard, que ofrecen soporte para entradas de imagen y, en el caso de este último, de voz, está claro que se está produciendo una carrera armamentística multimodal en el mercado. El objetivo es desarrollar un chatbot omnicanal capaz de interactuar con entradas de texto, imagen y voz y responder adecuadamente.
¿Qué significan los LLM multimodales para los usuarios?
El cambio del mercado hacia los LLM multimodales tiene algunas implicaciones interesantes para los usuarios, que tendrán acceso a una gama mucho más amplia de casos de uso, traduciendo texto a imágenes y viceversa.
Por ejemplo, un estudio publicado por investigadores de Microsoft experimentó con las capacidades de GPT-4V y descubrió una amplia gama de casos de uso en visión por computador y lenguaje de visión, entre los que se incluyen la descripción y el reconocimiento de imágenes, la comprensión visual, la comprensión de textos de escenas, el razonamiento de documentos y la comprensión de vídeos, entre otros.
Una capacidad especialmente interesante es la capacidad de GPT-4V para gestionar entradas de imagen-texto «intercaladas»».
«Este modo de entrada mixta proporciona flexibilidad para una amplia gama de aplicaciones. Por ejemplo, puede calcular el total de impuestos pagados en varias imágenes de recibos”, señala el informe.
“También permite procesar múltiples imágenes de entrada y extraer la información consultada. GPT-4V también podría asociar eficazmente información a través de entradas de imagen-texto intercaladas, como financiar el precio de la cerveza en el menú, contar el número de cervezas y devolver el coste total.”
Desafíos a superar
Es importante señalar que, aunque los LLM multimodales abren la puerta a toda una serie de casos de uso, siguen siendo vulnerables a las mismas limitaciones que los LLM de texto a texto. Por ejemplo, siguen teniendo el potencial de alucinar y responder a las preguntas de los usuarios con hechos y cifras que son probadamente falsos.
Al mismo tiempo, habilitar otros formatos, como las imágenes, como entrada presenta nuevos retos. OpenAI ha estado trabajando en silencio para implantar barreras que impidan que GPT-4V se utilice para identificar personas y comprometer los CAPTCHA.
Un estudio publicado por el proveedor también ha destacado las fugas multimodales como un factor de riesgo significativo. “Un nuevo vector de los jailbreaks con entrada de imágenes consiste en colocar en las imágenes parte del razonamiento lógico necesario para romper el modelo”, señala el estudio.
“Esto puede hacerse en forma de capturas de pantalla de instrucciones escritas o incluso de pistas de razonamiento visual. Colocar esa información en imágenes hace inviable el uso de métodos heurísticos basados en texto para buscar jailbreaks. Debemos confiar en la capacidad del propio sistema visual”.
Estas preocupaciones coinciden con las de otro estudio publicado a principios de este año por investigadores de la Universidad de Princeton, que advertían de que la versatilidad de los LLM multimodales “ofrece a un atacante visual una gama más amplia de objetivos adversos alcanzables”, lo que básicamente amplía la superficie de ataque.
Conclusión
Con la carrera armamentística de los LLM multimodales, es hora de que los desarrolladores de IA y las empresas consideren los posibles casos de uso y los riesgos que presenta esta tecnología.
Dedicar tiempo a estudiar las capacidades de estas soluciones emergentes ayudará a las organizaciones a asegurarse de que obtienen el máximo provecho de la adopción al tiempo que minimizan el riesgo.