Los grandes modelos lingüísticos (LLM) han demostrado unas capacidades impresionantes, que van desde participar en conversaciones naturales hasta resolver problemas matemáticos e incluso generar programas informáticos.
Sin embargo, estos puntos fuertes vienen acompañados de ciertas limitaciones.
Los modelos lingüísticos se entrenan con datos de una época determinada, lo que implica que pueden carecer de información sobre acontecimientos actuales y ofrecer datos inexactos cuando se les pregunta sobre ellos, sobre todo en el ámbito de la inteligencia artificial (IA).
También carecen de la capacidad de aprender por sí mismos o de adaptarse a situaciones cambiantes. En consecuencia, a medida que el mundo cambia, los LLM necesitan un reciclaje intensivo de recursos para mantener actualizados sus conocimientos y su capacidad de resolución de problemas.
Además, a medida que los modelos lingüísticos evolucionan desde su función convencional de comprender el lenguaje humano hasta convertirse en agentes de resolución de problemas, no basta con depender únicamente del procesamiento del lenguaje natural; también necesitarían tener acceso a herramientas de resolución de problemas.
Gorilla parece estar cambiando este campo, un LLM mejorado con API que destaca en la generación de llamadas precisas a API, superando incluso a modelos punteros como GPT-4.
La fuerza de Gorilla reside en su perfecta adaptación a la cambiante documentación de las API, garantizando una precisión actualizada. Esta fusión de la comprensión del lenguaje y los datos en tiempo real supone un paso transformador hacia unos LLM versátiles para la resolución de problemas.
Ventajas de aumentar los LLM con API
La mejora de los LLM mediante la integración de API ofrece numerosas ventajas. Algunas de las ventajas clave se mencionan a continuación:
– Acceso a información en tiempo real: La mejora de los grandes modelos lingüísticos (LLM) con recursos adicionales les otorga la capacidad de acceder a la información más actual de fuentes que se actualizan continuamente.
Esto se consigue permitiéndoles utilizar tecnologías de búsqueda y bases de datos. De este modo, los LLM pueden acceder eficazmente a una gama de conocimientos mucho más amplia y en constante cambio, en lugar de depender únicamente de la información fija que aprendieron inicialmente durante su formación.
– Resolución de problemas complejos del mundo real: Las API son esenciales en el desarrollo de software moderno. Permiten que distintas partes del software se comuniquen y realicen diversas tareas. Al añadir API a los modelos lingüísticos, se les dota de las capacidades necesarias para resolver problemas complejos del mundo real que van más allá del procesamiento del lenguaje natural.
– Transformación de las interacciones: Permitir el uso de una amplia variedad de API en la nube que evolucionan dinámicamente tiene el potencial de convertir los LLM en el principal medio a través del cual las personas interactúan con los sistemas informáticos e Internet. Esto puede remodelar tareas como reservar unas vacaciones completas u organizar una conferencia, haciéndolas tan sencillas como mantener una conversación con un LLM que pueda acceder a API web de vuelos, alquiler de coches, hoteles, catering y entretenimiento.
– Rediseño de la síntesis de programas: Aprovechar los LLM para la síntesis de programas ha sido históricamente difícil debido a la complejidad de la implementación de bajo nivel. Sin embargo, la integración de API permite ahora a los LLM crear programas complejos mediante llamadas a API simplificadas, ampliando sus capacidades sin tener que lidiar con intrincados detalles de implementación.
Presentación de Gorilla: un LLM mejorado con API
Gorilla es un LLM avanzado específicamente entrenado para sobresalir en la generación de llamadas a la API y puede adaptarse a los cambios en la documentación de la API.
Este modelo se desarrolló en respuesta a los retos a los que se enfrentan los LLM como GPT-4 a la hora de generar con precisión los argumentos de entrada para las llamadas a la API, lo que a veces lleva a generar un uso incorrecto de la API.
Para entrenar a Gorilla, los investigadores recopilaron una colección diversa de llamadas a API de plataformas como HuggingFace, TorchHub y TensorHub, formando el conjunto de datos APIBench.
A continuación, este conjunto de datos se utilizó para perfeccionar el modelo basado en LLaMA -un Large Language Model de código abierto desarrollado por Meta AI-, transformándolo finalmente en Gorilla. El proceso de entrenamiento consistió en generar pares de instrucciones y sus correspondientes respuestas mediante la aplicación de técnicas de autoinstrucción.
Gorilla presenta un rendimiento superior al de otros LLM, como GPT-4 y GPT-3.5-turbo, a la hora de generar llamadas a la API a partir de instrucciones en lenguaje natural.
Su notable capacidad radica en su perfecta adaptación a los cambios en la documentación de la API, una hazaña lograda gracias a su enfoque de entrenamiento basado en la recuperación. Este enfoque único permite a Gorilla mantenerse constantemente actualizado con la evolución de la documentación de la API y adherirse eficazmente a diversas restricciones. Como resultado, Gorilla destaca como una herramienta fiable y precisa para la generación de llamadas API.
El modelo Gorilla es un recurso de código abierto accesible a través de Hugging Face, lo que permite al público utilizarlo para diversos fines.
¿Cómo genera Gorilla las llamadas a la API?
Gorilla emplea un procedimiento de varios pasos para establecer una conexión con una API, un proceso que se desarrolla de la siguiente manera:
1. Entrada del usuario e inferencia: Durante la fase de inferencia, los usuarios proporcionan instrucciones en lenguaje natural. Estas indicaciones pueden ir desde tareas sencillas (“¿Puedes ayudarme a identificar los elementos de esta fotografía?”) hasta objetivos más generales (“Voy a dar un paseo por la naturaleza y quiero identificar varios tipos de árboles”). Gorila realiza la inferencia en dos modos distintos, a saber, tiro por cero y recuperación.
2. Inferencia a tiro cero: En el modo zero-shot, el prompt proporcionado (sin ningún ajuste adicional del prompt) se introduce en el modelo Gorilla LLM. El modelo entonces compone una llamada API que se alinea con la tarea u objetivo dado. Este enfoque racionalizado no requiere ningún ajuste adicional de la solicitud.
3. Modo de recuperación: En el modo de recuperación, Gorilla incorpora un mecanismo de recuperación que utiliza BM25 o GPT, técnicas análogas a las empleadas por los motores de búsqueda para evaluar la relevancia de los documentos.
Este recuperador recupera inicialmente la documentación más reciente de la API almacenada en la base de datos de la API. A continuación, la documentación recuperada se combina con la petición del usuario y se amplía con la instrucción “Consulte esta documentación de la API”. A continuación, la instrucción combinada se introduce en el sistema de Gorilla para su posterior procesamiento.
4. Concatenación y salida: El resultado generado por Gorilla es una llamada a la API totalmente preparada, lista para su ejecución. Aunque la documentación de la API y la instrucción de usuario están combinadas, es crucial destacar que Gorilla no implica ningún ajuste adicional de la instrucción.
Conclusión
Los modelos lingüísticos, aunque impresionantes, tienen limitaciones debidas a los datos de entrenamiento fijos y a la incapacidad de adaptación.
El aumento de los grandes modelos lingüísticos (LLM) con API les permite acceder a la información en tiempo real y resolver problemas más allá del procesamiento del lenguaje.
Esta integración tiene el potencial de remodelar las interacciones con la tecnología, simplificando las tareas y permitiendo la síntesis de programas complejos.
Gorilla, un LLM complementado con API, aborda los retos que plantea la generación precisa de llamadas a API. El enfoque de entrenamiento adaptativo de Gorilla hace que sea competente en la generación de llamadas API precisas, proporcionando una conexión sin fisuras entre los usuarios y las API en evolución para diversas tareas.