Fiabilidad

Perspectivas: Desglosando el viaje transformador de los modelos GPT en la IA, de GPT-1 a GPT-4

Resumen

La serie GPT ha transformado el panorama de la IA. Cada modelo sucesivo muestra un progreso en sus capacidades, con cálculos de entrenamiento (expresados en FLOPs) que demuestran los inmensos recursos asignados. Sin embargo, un estudio reciente observó cambios en los resultados de GPT-4 y GPT-3.5 a medida que pasaba el tiempo, lo que sugiere que se ha producido un descenso general en su rendimiento. Los investigadores de Princeton refutaron estos resultados, sugiriendo sesgos en los conjuntos de datos y las evaluaciones, lo que pone de relieve los retos que plantea la evaluación de los modelos lingüísticos.

 

La inteligencia artificial (IA) ha experimentado grandes cambios desde que comenzó la serie Chat Generative Pre-trained Transformer (GPT) en 2018.

Los modelos sucesivos trajeron mejoras, actualizaciones y desafíos, captando el interés de entusiastas, investigadores y usuarios. Desde la creación de texto básico de GPT-1 hasta las diversas habilidades de GPT-4, el progreso es evidente. Estudios continuos examinan las acciones de estos modelos, arrojando luz sobre sus cambiantes habilidades y posibles problemas.

Este artículo abarca el crecimiento y el estudio de los modelos de transformadores generativos preentrenados por chat. Se centra en sus resultados de rendimiento y en las conclusiones de diferentes pruebas.

La evolución de la serie de transformadores generativos preentrenados

Un aspecto esencial para comprender los avances de la serie GPT es el cálculo de entrenamiento, a menudo medido en FLOP (operaciones en coma flotante) totales. Un FLOP representa operaciones matemáticas básicas como la suma, la resta, la multiplicación o la división realizadas con dos números decimales.

A escala, un petaFLOP equivale a la asombrosa cifra de cuatrillones (10^15) de FLOP. Esta medida de cálculo pone de manifiesto los ingentes recursos invertidos en el entrenamiento de estos modelos.

Lanzamiento de la GPT en 2018

GPT-1, presentado en junio de 2018, marcó el inicio de la serie de modelos de transformadores generativos preentrenados. Esto sentó las bases para el ChatGPT de hoy. GPT-1 mostró el potencial del aprendizaje no supervisado en la comprensión del lenguaje, prediciendo la siguiente palabra en oraciones utilizando libros como datos de entrenamiento.

GPT se entrenó utilizando 17.600 petaFLOPs.

El salto a GPT-2 en 2019

En febrero de 2019, GPT-2 surgió como una actualización significativa de la serie de transformadores generativos preentrenados. Mostró mejoras sustanciales en la generación de texto, produciendo contenido coherente de varios párrafos. Sin embargo, debido a posibles preocupaciones de uso indebido, el lanzamiento público de GPT-2 se retuvo inicialmente. Finalmente se lanzó en noviembre de 2019 después de la cuidadosa evaluación de riesgos de OpenAI.

GPT-2 se entrenó utilizando 1,49 millones de petaFLOPs.

El revolucionario GPT-3 en 2020

GPT-3, un salto monumental en junio de 2020. Su avanzada generación de texto encontró aplicaciones en la redacción de correos electrónicos, la redacción de artículos, la creación de poesía e incluso la generación de código de programación. Demostró su capacidad para responder a consultas objetivas y traducir idiomas.

GPT-3 se entrenó utilizando 314 millones de petaFLOPs.

Impacto de GPT-3.5

GPT-3.5 es una versión mejorada de GPT-3, lanzada en 2022. Este modelo de transformador generativo preentrenado tiene menos parámetros y utiliza un ajuste fino para mejorar el aprendizaje automático (ML). Esto implica el aprendizaje por refuerzo con retroalimentación humana para que los algoritmos sean más precisos y eficaces. GPT-3.5 también se ha diseñado siguiendo valores éticos, asegurándose de que la IA que potencia sea segura y fiable para el uso humano.

OpenAI ofrece este modelo para su uso gratuito. El número de petaFLOPs utilizados para el entrenamiento no está disponible.

Introducción del GPT-4 multimodal en 2023

GPT-4, la versión más reciente, sigue la tendencia de avance notable, introduciendo mejoras como:

  • Alineación mejorada del modelo, lo que le permite comprender mejor las intenciones del usuario.
  • Reducción de las posibilidades de producir contenidos ofensivos o nocivos.
  • Mayor precisión factual.
  • Mayor capacidad de dirección, que le permite adaptar su comportamiento en función de las indicaciones del usuario.
  • Conectividad a Internet, una nueva función que permite realizar búsquedas en Internet en tiempo real.

Este modelo se ofrece a los abonados a ChatGPT Plus.

GPT-4 se entrenó utilizando 21.000 millones de petaFLOPs.

GPT-3.5 frente a GPT-4: un estudio de investigación

La Universidad de Stanford y la Universidad de California en Berkeley han publicado un estudio en el que se destacan los cambios en los resultados de GPT-4 y GPT-3.5 con el paso del tiempo. El documento sugiere que se ha producido un declive general en el rendimiento de estos modelos generativos de transformadores preentrenados.

Lingjiao Chen, Matei Zaharia y James Zou estudiaron los modelos de OpenAI utilizando el acceso a la API para examinar los modelos de marzo y junio de 2023. Realizaron pruebas para comprender la evolución y la adaptabilidad de los modelos de transformadores generativos preentrenados a lo largo del tiempo.

Números primos frente a números compuestos

Los investigadores querían comprobar si GPT-4 y GPT-3.5 pueden decir si los números son primos o no. Para ello utilizaron 1.000 preguntas, de las cuales la mitad eran números primos de una lista extraída de otro trabajo. La otra mitad se eligieron entre números comprendidos entre 1.000 y 20.000.

Se utilizó un método llamado Cadena de Pensamiento (CoT) para ayudar a pensar a los transformadores generativos preentrenados. Este método descompone la tarea, primero comprobando si un número es par, segundo encontrando su raíz cuadrada y tercero viendo si números primos más pequeños pueden dividirlo.

Estos fueron los resultados:

GPT-4:

  • Marzo 2023: 84% de precisión
  • Junio de 2023: 51% de precisión

GPT-3.5:

  • Marzo de 2023: 49,6% de precisión
  • Junio de 2023: 76,2% de precisión

Números felices

El objetivo de la prueba era comprobar la capacidad de ChatGPT para identificar números felices dentro de un rango determinado. Un número feliz es aquel en el que sumas los cuadrados de sus dígitos y terminas con 1.

Por ejemplo, 13 es un número feliz porque 1 al cuadrado más 3 al cuadrado es igual a 10, y luego 1 al cuadrado es igual a 1.

El estudio se centró en esto porque es una pregunta clara, a diferencia de otras que pueden tener respuestas de sí o no. También se trata de matemáticas sencillas.

Para esta prueba se crearon 500 preguntas. Cada pregunta se refería a cuántos números felices hay en un rango determinado. El tamaño del rango variaba, y su punto de partida se elegía entre números comprendidos entre 500 y 15.000. La prueba utilizó el CoT para ayudar al pensamiento lógico.

Estos fueron los resultados:

GPT-4:

  • Marzo 2023: 83,6% de precisión
  • Junio de 2023: 35,2% de precisión

GPT-3.5:

  • Marzo de 2023: 30,6% de precisión
  • Junio de 2023: 48,2% de precisión

Preguntas delicadas/peligrosas

En esta prueba se comprobó cómo los modelos generativos de transformador preentrenados gestionaban las preguntas delicadas. Para ello se elaboró un conjunto de 100 preguntas sensibles, con preguntas que podían ser perjudiciales o controvertidas. Por lo tanto, los modelos debían evitar las respuestas directas.

Los investigadores utilizaron el etiquetado manual para ver si un modelo respondía directamente a una pregunta.

Estos fueron los resultados:

GPT-4:

  • Marzo de 2023: 21,0% de respuestas
  • Junio de 2023: 5,0% de respuestas

GPT-3.5:

  • Marzo de 2023: 2,0% de respuestas
  • Junio de 2023: 8,0% de respuestas

Encuestas de opinión

Esta prueba examinó cómo cambiaban con el tiempo los sesgos de opinión de los modelos lingüísticos utilizando el conjunto de datos OpinionQA. Este conjunto contenía 1.506 preguntas de opinión de las principales encuestas públicas. Las preguntas eran de tipo test, y a los modelos se les pedía que “eligieran la mejor opción”.

El objetivo principal era comprobar si los modelos transformativos generativos preentrenados estaban preparados para emitir opiniones.

Estos fueron los resultados:

GPT-4:

  • Marzo de 2023: 97,6% de respuesta
  • Junio de 2023: tasa de respuesta del 22,1

GPT-3.5:

  • Marzo de 2023: índice de respuesta del 94,3
  • Junio de 2023: índice de respuesta del 96,7

Preguntas intensivas en conocimiento multisalto

Para estudiar la capacidad de los grandes modelos lingüísticos (LLM) para responder a preguntas complejas con múltiples saltos, los investigadores utilizaron un método denominado LangChain HotpotQA Agent. Este método consistía en hacer que los LLM buscaran en Wikipedia para encontrar respuestas a preguntas complejas.

A continuación, se asignó al agente la tarea de responder a cada consulta del conjunto de datos HotpotQA.

Estos fueron los resultados:

GPT-4:

  • Marzo de 2023: 1,2% de coincidencia exacta
  • Junio de 2023: 37,8% de respuestas exactas

GPT-3.5:

  • Marzo 2023: 22,8% coincidencia exacta
  • Junio 2023: 14,0% coincidencia exacta

Generación de código

Para evaluar la capacidad de generación de código de los LLM sin riesgo de contaminación de los datos, se creó un nuevo conjunto de datos con los últimos 50 problemas clasificados como “fáciles” en LeetCode. Estos problemas cuentan con soluciones y discusiones que se hicieron públicas en diciembre de 2022.

A los modelos generativos de transformadores preentrenados se les presentaron estos problemas, junto con las descripciones originales y las plantillas de código Python.

El código generado por los LLM se presentó directamente al juez en línea de LeetCode para su evaluación. Si el código generado era aceptado por el juez, significaba que el código se adhería a las reglas de Python y superaba con éxito las pruebas designadas por el juez.

Estos fueron los resultados

GPT-4:

  • Marzo 2023: 52,0% directamente ejecutable
  • Junio de 2023: 10,0% directamente ejecutable

GPT-3.5:

  • Marzo 2023: 22,0% directamente ejecutable
  • Junio de 2023: 2,0% directamente ejecutable

Examen médico

Esta prueba se propuso evaluar el progreso de GPT-4 y GPT-3.5 en un campo especializado: el USMLE, un examen médico crucial para los médicos estadounidenses. Este examen era un punto de referencia para evaluar los conocimientos médicos de los LLM. La metodología consistió en hacer que los modelos generativos de transformadores preentrenados realizaran el USMLE y luego comparar su rendimiento.

Estos fueron los resultados

GPT-4:

  • Marzo de 2023: 86,6% de precisión
  • Junio de 2023: 82,4% de precisión

GPT-3.5:

  • Marzo de 2023: 58,5% de precisión
  • Junio de 2023: 57,7% de precisión

Razonamiento visual

El objetivo de esta prueba era comprobar el rendimiento de los LLM en tareas visuales. Utilizando el conjunto de datos ARC, una herramienta popular para este tipo de pruebas, pidieron a los LLM que crearan cuadrículas basadas en muestras dadas. Estas cuadrículas utilizaban colores representados en matrices bidimensionales. De 467 muestras probadas, compararon las respuestas de los LLM con las correctas para medir su precisión.

Estos fueron los resultados:

GPT-4:

  • Marzo de 2023: 24,6% de aciertos exactos
  • Junio de 2023: 27,2% de aciertos exactos

GPT-3.5:

  • Marzo 2023: 10,9% de concordancia exacta
  • Junio de 2023: 14,3% de coincidencias exactas

Conclusión

Los resultados mostraron un cambio en el rendimiento. Ambos modelos de transformadores generativos preentrenados tuvieron cambios de precisión en muchas tareas, con algunas tareas que mejoraron y otras que disminuyeron.

Por ejemplo, GPT-4 obtuvo mejores resultados con las preguntas difíciles, pero tuvo problemas con la codificación y las matemáticas. Por otro lado, GPT-3.5 tuvo resultados mixtos en algunas tareas.

La investigación indica que los LLM siguen evolucionando. El seguimiento y la evaluación continuos son cruciales, especialmente para los usos críticos. Los datos hacen hincapié en la supervisión de los cambios y en el reto que supone un rendimiento constante en las tareas.

¿Está disminuyendo realmente el rendimiento de GPT-4? Un análisis más detallado

Aunque el estudio de Stanford suscita preocupación por el rendimiento de la GPT-4, otros expertos ofrecen una perspectiva diferente. Arvind Narayanan, profesor de informática de la Universidad de Princeton, y Sayash Kapoor, candidato al doctorado, profundizaron en las conclusiones del estudio para señalar lo siguiente.

Comprender los chatbots

Los chatbots como GPT-4 tienen dos características principales: capacidad (lo que pueden hacer) y comportamiento (cómo actúan). Mientras que las capacidades se establecen durante una fase intensiva de preentrenamiento, el comportamiento puede ajustarse en la fase posterior, más frecuente, de puesta a punto. Tras el preentrenamiento, el modelo actúa esencialmente como una herramienta de autocompletado. Su capacidad para interactuar de forma similar a un chat procede del ajuste fino.

Evaluación de la generación de código

El estudio descubrió que la nueva versión GPT-4 a veces añade texto no codificado en sus resultados. En lugar de comprobar la exactitud del código, los investigadores sólo verificaron si era directamente ejecutable. Esto significa que los esfuerzos del modelo por ofrecer respuestas más completas se consideraron negativos.

Evaluación de problemas matemáticos

El estudio utilizó problemas matemáticos centrados en la identificación de números primos. Sin embargo, todos los números que probaron eran primos. Esta elección de datos influyó en los resultados.

De hecho, Narayanan y Kapoor probaron los modelos con 500 números compuestos y se dieron cuenta de que gran parte de la degradación del rendimiento se debía a esta elección de los datos de evaluación.

En la versión de marzo, GPT-4 predecía con frecuencia que los números eran primos, mientras que la versión de junio suele suponer que son compuestos. Los investigadores consideraron que esto suponía un descenso significativo del rendimiento, principalmente porque sólo evaluaban números primos. Curiosamente, GPT-3.5 muestra el comportamiento opuesto.

Fuente: AI Snake Oil

En realidad, los cuatro modelos tuvieron un rendimiento similarmente pobre, como se ilustra en el gráfico anterior. Sus predicciones estaban influidas por la calibración inicial. En la mayoría de los casos, ninguno de los modelos comprobó realmente si los números tenían divisores, sino que se limitaron a fingir que lo hacían enumerando todos los factores que debían comprobarse sin comprobarlos realmente.

En última instancia, Narayanan y Kapoor concluyeron que el trabajo no prueba de forma concluyente que las capacidades de GPT-4 hayan disminuido. Sin embargo, pone de relieve las posibles consecuencias no deseadas del ajuste fino, incluidos cambios significativos en el comportamiento.

La evaluación de los modelos lingüísticos sigue siendo una tarea ardua y es fundamental abordarla con un conocimiento exhaustivo de las capacidades y el comportamiento de los modelos.

En resumen

La serie de transformadores generativos preentrenados destaca en el campo de la IA. Pero con las nuevas ideas viene la necesidad de comprobaciones periódicas.

La trayectoria de rendimiento de estos modelos, mostrada en estudios, apunta a resultados de aprendizaje automático cambiantes. Algunos observan un descenso de las aptitudes, mientras que otros se centran en los detalles de las pruebas.

Aun así, el crecimiento de los modelos GPT tiene un gran significado para el camino de la IA en el futuro. Y mantener una visión flexible es clave, teniendo en cuenta tanto los altibajos de estas herramientas.

 

Temas relacionados

Maria Webb
Periodista especializada en tecnología

Especialista en contenidos con más de 5 años de experiencia periodística, Maria Webb es actualmente una periodista especializada en tecnología para Business2Community y Techopedia, y se especializa en artículos basados en datos. Tiene especial interés en la IA y el posthumanismo. Su trayectoria periodística incluye dos años como periodista estadística en Eurostat, donde elaboró atractivos artículos centrados en datos, y tres años en Newsbook.com.mt, donde cubrió noticias locales e internacionales.