En los últimos años, se ha realizado un esfuerzo concertado para ampliar los modelos lingüísticos y convertirlos en lo que ahora llamamos grandes modelos lingüísticos (LLM, por sus siglas en inglés), lo que implica entrenar modelos más grandes en conjuntos de datos más extensos con mayor potencia computacional, lo que se traduce en mejoras constantes y esperadas en sus capacidades de generación de texto.
A medida que los LLM crecen, llegan a un punto en el que desbloquean nuevas capacidades, un fenómeno conocido como aprendizaje en contexto o aprendizaje basado en estímulos.
Estas nuevas habilidades se desarrollan de forma natural sin un entrenamiento específico, lo que permite a los LLM realizar tareas como aritmética, responder preguntas y resumir textos, todas ellas adquiridas mediante la exposición al lenguaje natural.
Este entusiasmo ha adquirido recientemente una nueva dimensión, ya que los investigadores de Google DeepMind han transformado los LLM en potentes herramientas de optimización utilizando su técnica de prompting, conocida como Optimization by PROmpting (OPRO).
Aprendizaje en contexto o basado en estímulos: Un comportamiento emergente de los LLM
El comportamiento emergente describe cómo un sistema puede cambiar drásticamente su comportamiento cuando se realizan pequeños ajustes en él, especialmente cuando alcanza un umbral específico.
Un buen ejemplo de comportamiento emergente puede verse en el agua. A medida que disminuye la temperatura, el comportamiento del agua cambia gradualmente, pero hay un punto crítico en el que ocurre algo notable. A esa temperatura, el agua experimenta una transformación rápida y significativa, pasando del estado líquido al hielo, como si se encendiera un interruptor.
El comportamiento emergente no se limita a campos específicos, sino que abarca diversos ámbitos como la física, la biología, la economía y los sistemas. En el contexto de los LLM, sin embargo, esto significa que tras una etapa concreta de su formación, los LLM parecen pasar a un nuevo modo en el que pueden abordar eficazmente problemas complejos sin una formación explícita.
Este comportamiento extraordinario suele iniciarse y guiarse mediante avisos, que son instrucciones en lenguaje natural que se dan a los LLM. Dado que la calidad de las respuestas de los LLM está estrechamente ligada a la calidad de la instrucción, la elaboración de instrucciones eficaces se ha convertido en un elemento fundamental de la utilización de los LLM.
Por ejemplo, la cadena de pensamiento es una técnica desarrollada para permitir que el modelo descomponga problemas complejos en subproblemas y los encadene para resolverlos de la misma forma que resolvemos problemas matemáticos y de razonamiento. Este comportamiento se consigue proporcionando tanto los pasos intermedios de razonamiento como la solución final como una indicación para guiar a los LLM en la realización de estas tareas.
Por ejemplo, para que el LLM pueda resolver tareas de razonamiento de sentido común como “Me voy de excursión y necesito llevar agua. ¿Cuántas botellas de agua de 16 onzas debo llevar para una caminata de 10 millas?”, podemos guiar al modelo como “Una pauta general es beber entre 0,5 y 1 litro (17-34 onzas) de agua por hora de caminata. Para una caminata de 16 kilómetros, necesitarías al menos 1-2 botellas, así que dos botellas de 16 onzas cada una deberían ser suficientes.”
Evolución de los LLM hacia potentes optimizadores
La investigación contemporánea de la IA está siendo testigo de un creciente interés en el desarrollo de técnicas innovadoras para incitar eficazmente a los LLM, aprovechando sus capacidades emergentes para abordar tareas de resolución de problemas.
En este contexto, los investigadores de Google DeepMind han logrado recientemente un avance significativo con una nueva técnica de incitación conocida como “Optimización por incitación” (OPRO), que puede incitar a los LLM a resolver problemas de optimización. Esta capacidad de optimización emergente añade una nueva capa de utilidad a estos LLM, convirtiéndolos en valiosas herramientas de resolución de problemas en diversos dominios.
Piense en las posibilidades. Puede presentar un problema complejo de ingeniería en un lenguaje sencillo en lugar de definir formalmente el problema y derivar el paso de actualización con un solucionador programado.
El modelo lingüístico puede captar los entresijos y proponer soluciones optimizadas. Del mismo modo, el análisis financiero puede ayudar en la optimización de carteras o la gestión de riesgos. Las aplicaciones abarcan un amplio espectro, desde la gestión de la cadena de suministro y la logística hasta la investigación científica y campos creativos como el arte y el diseño.
¿Cómo funciona OPRO?
En pocas palabras, OPRO utiliza la potencia de los modelos lingüísticos para resolver problemas generando y evaluando soluciones, todo ello mientras comprende el lenguaje habitual y aprende de lo que ha hecho antes. Es como tener un asistente inteligente que va mejorando en la búsqueda de soluciones a medida que avanza. Un componente esencial de este proceso es el meta-prompt, que tiene dos partes fundamentales:
– En primer lugar, explica el problema con palabras, incluyendo lo que intentamos conseguir y las reglas que debemos seguir. Por ejemplo, si intentamos mejorar la precisión de una tarea, las instrucciones pueden decir “inventa una nueva forma de hacer la tarea más precisa”.
– En segundo lugar, incluye una lista de soluciones que el LLM haya probado antes y lo buenas que fueron. Esta lista ayuda al LLM a reconocer patrones en las respuestas y a basarse en las que parecen prometedoras.
Durante cada paso del proceso de optimización, el LLM propone soluciones potenciales para la tarea de optimización. Para ello, tiene en cuenta tanto la descripción del problema como las soluciones que ha visto y evaluado anteriormente, que se almacenan en el meta-prompt.
Una vez que genera estas nuevas soluciones, las examina detenidamente para comprobar su capacidad para resolver el problema. Se añaden al meta-prompt si superan a las soluciones conocidas anteriormente. Esto se convierte en un ciclo en el que el LLM sigue mejorando sus soluciones basándose en su aprendizaje.
Para entender la idea, consideremos la tarea de optimizar una cartera financiera. A un “LLM optimizador” se le proporciona un meta-promptido que contiene parámetros de inversión y ejemplos con marcadores de posición para los mensajes de optimización.
Genera diversas asignaciones de cartera. Estas carteras son evaluadas por un “analizador de rendimiento LLM” en función de la rentabilidad, el riesgo y otros parámetros financieros. Las instrucciones para las carteras con mejores resultados y sus parámetros de rendimiento se integran en la metainstrucción original. Este meta-prompt refinado se utiliza entonces para mejorar la cartera inicial, y el ciclo se repite para optimizar los resultados de inversión.
En resumen
Avances como OPRO son una paradoja: cautivadores por su ilimitado potencial para ampliar nuestros horizontes y desconcertantes porque marcan el comienzo de una era en la que la IA puede elaborar de forma autónoma intrincados procesos, incluida la optimización, desdibujando los límites del control y la creación humanos.
No obstante, la capacidad de transformar grandes modelos lingüísticos (LLM) en potentes optimizadores establece a OPRO como un enfoque robusto y versátil para la resolución de problemas. El potencial de OPRO abarca la ingeniería, las finanzas, la gestión de la cadena de suministro, etc., ofreciendo soluciones eficaces e innovadoras. Supone un paso importante en la evolución de la IA, ya que permite a los LLM aprender y mejorar continuamente y abre nuevas posibilidades para la resolución de problemas.