Los parámetros son una de las formas más comunes de medir el rendimiento de un modelo de gran lenguaje (LLM). Cuando OpenAI actualizó la GPT 3.5 a la GPT-4, uno de los temas de conversación más significativos fue cómo esta última ofrecía supuestamente 1,7 billones de parámetros frente a los 175.000 millones de la GPT 3.5.
Pero, ¿qué son exactamente los parámetros de inteligencia artificial (IA)? ¿Y qué diferencia suponen en las capacidades de un modelo lingüístico? A continuación, desglosaremos algunas de las preguntas más frecuentes en torno a estos componentes vitales.
¿Qué es un parámetro?
En sus términos más sencillos, un parámetro es un valor que determina el comportamiento de un modelo de aprendizaje automático, un algoritmo diseñado para identificar patrones en un conjunto de datos y hacer predicciones basadas en esa información.
Dentro de los confines de un modelo de aprendizaje automático, cada parámetro actúa como una variable, que determina cómo procesará y convertirá el modelo una entrada en una salida.
Esto significa que, en general, cuantos más parámetros tenga un modelo, mejor podrá captar los detalles de un conjunto de datos y mejor será su rendimiento global, sobre todo en tareas como la generación de textos y la respuesta a las preguntas de los usuarios.
¿Qué tipos de parámetros existen?
Cabe señalar que hay dos tipos principales de parámetros en los modelos de aprendizaje automático: los parámetros y los hiperparámetros. A menudo, estos términos se utilizan indistintamente, pero cada uno de ellos denota tipos diferentes de variables.
Los parámetros son variables que aprenden sus propios valores a partir de un conjunto de datos. Estos parámetros son actualizados por el algoritmo de ML a lo largo del proceso de entrenamiento. El proceso de entrenamiento continúa hasta que los parámetros encuentran sus valores óptimos.
Por otro lado, los hiperparámetros son variables definidas por un usuario humano, que determinan cómo se entrena un modelo ML. Los hiperparámetros se utilizan para determinar los valores óptimos de los parámetros descritos anteriormente.
Los valores de los hiperparámetros deben ser especificados por el desarrollador antes de que el modelo se someta al entrenamiento y permanecerán fijos durante todo el proceso de entrenamiento.
¿Cuál es la ventaja de tener más parámetros?
A alto nivel, cuantos más parámetros tenga un modelo, más datos podrá procesar y mejor podrá resumir o traducir textos y responder a las preguntas de los usuarios.
Sin embargo, vale la pena mencionar que tener más parámetros no hace necesariamente que un modelo de IA o LLM sea mejor. Otros factores, como los fallos en los datos de entrenamiento y los tipos de técnicas utilizadas para procesarlos, también pueden determinar el rendimiento.
Como destaca un estudio de OpenAI llamado Leyes de Escalado para Modelos Neuronales del Lenguaje, existe un punto de rendimiento decreciente: “El rendimiento mejora de forma predecible mientras aumentemos N [número de parámetros del modelo] y D [tamaño del conjunto de datos[ a la vez, pero entra en un régimen de rendimientos decrecientes si N o D se mantienen fijos mientras aumenta el otro”.
Así que, aunque tener más parámetros puede ser positivo para muchos modelos, sólo es beneficioso para el rendimiento si también aumenta el tamaño de los datos de entrenamiento y la cantidad de computación utilizada para el entrenamiento.
En cualquier caso, en un momento dado, tener demasiados parámetros puede ser indeseable debido a los mayores requisitos computacionales que necesita para funcionar, pero también si cae en la trampa del sobreajuste.
¿Qué es el sobreajuste?
El sobreajuste se produce cuando un modelo tiene demasiados parámetros, que están vinculados a un conjunto concreto de datos de entrenamiento, y no puede hacer predicciones precisas basándose en un nuevo conjunto de datos.
Para evitar esta situación, los proveedores de IA a menudo tienen que proporcionar suficientes parámetros para ofrecer un equilibrio entre generalización y especialización. De este modo, un modelo tiene suficientes parámetros para hacer inferencias a partir de un conjunto de datos, pero no cae en la trampa del ajuste excesivo a un conjunto de datos concreto.
¿Pueden los modelos con menos parámetros competir con los modelos más grandes?
Sí, en determinadas tareas. Orca 2, el pequeño modelo lingüístico que acaba de lanzar Microsoft, tiene sólo 13.000 millones de parámetros, pero puede rendir igual o mejor que modelos 5-10 veces mayores en determinadas tareas.
Lo consigue mediante el uso de datos de entrenamiento sintéticos, que enseñan a Orca 2 técnicas de razonamiento que puede utilizar para procesar las tareas con mayor eficacia.
Esto pone de relieve que no es necesario tener más parámetros para superar a otro modelo o seguir siendo competitivo con él.
Además, los modelos lingüísticos más pequeños también tienen la ventaja de requerir menos potencia computacional para ejecutarse. Esto puede hacer que los modelos con pocos parámetros sean la opción más rentable en determinados casos.
En consecuencia, merece la pena considerar los parámetros de un modelo junto con el tipo de datos con los que se ha entrenado, las técnicas utilizadas por el proveedor y el coste total de su ejecución.