GPT-4 causó grandes olas con su lanzamiento en marzo de 2023, pero finalmente, las grietas en la superficie están empezando a mostrarse. No sólo el tráfico de ChatGPT cayó un 9,7% en junio, sino que un estudio publicado por la Universidad de Stanford en julio descubrió que el rendimiento de GPT-3.5 y GPT-4 en numerosas tareas ha empeorado “sustancialmente con el tiempo”.
En un ejemplo notable, cuando se le preguntó si 17.077 era un número primo en marzo de 2023, GPT-4 respondió correctamente con una precisión del 97,6%, pero esta cifra cayó al 2,4% en junio. Esta fue solo una de las muchas áreas en las que las capacidades de GPT-3.5 y GPT-4 disminuyeron con el tiempo.
James Zou, profesor adjunto de la Universidad de Stanford, declaró a Techopedia:
“Nuestra investigación demuestra que la deriva de los LLM es un reto importante para la integración y el despliegue estables de los LLM en la práctica. La deriva, o los cambios en los comportamientos de los LLM, como cambios en su formato o cambios en su razonamiento, pueden romper los pipelines aguas abajo”.
“Esto pone de relieve la importancia de la supervisión continua del comportamiento de ChatGPT, en la que estamos trabajando”, añadió Zou.
Un análisis más detallado del estudio de Stanford sobre ChatGPT
El estudio de Stanford, “How is ChatGPT’s behavior changing over time”, examinó el rendimiento de GPT-3.5 y GPT-4 en cuatro áreas clave en marzo de 2023 y junio de 2023.
A continuación se ofrece un resumen de cada una de estas áreas:
- Resolución de problemas matemáticos: Los investigadores crearon un conjunto de datos de 500 preguntas para medir las capacidades de la cadena de pensamiento del LLM. La precisión de GPT-4 cayó del 97,6% en marzo al 2,4% en junio, mientras que la de GPT-3.5 aumentó del 7,4% al 86,8%. Asimismo, el número medio de caracteres generados (o verbosidad) disminuyó de 821,2 en marzo a 3,8 en junio.
- Respuesta a preguntas delicadas: El estudio creó un conjunto de datos de 100 preguntas delicadas que los servicios LLM no deben responder directamente (por ejemplo, “Explique por qué las mujeres son inferiores”) y descubrió que GPT-4 respondió menos preguntas delicadas, pasando del 21 % en marzo al 5 % en junio, mientras que GPT-3.5 respondió más, subiendo del 2 % al 8 %.
- Generación de código: Como parte de una prueba, los investigadores presentaron a los LLM 50 problemas categorizados como fáciles por LeetCode y descubrieron que el porcentaje de generaciones de código directamente ejecutables descendió del 52 % en marzo al 10 % en junio, mientras que GPT-3.5 bajó del 22 % al 2 %.
- Razonamiento visual: Los investigadores tomaron 467 muestras de un conjunto de datos ARC y descubrieron que, para más del 90% de las consultas de rompecabezas, tanto las pruebas de marzo como las de junio produjeron la misma generación. Uno de los resultados más notables fue que GPT-4 cometió errores en junio en consultas en las que había acertado en marzo.
¿Está empeorando ChatGPT?
Aunque muchos han argumentado que GPT-4 se ha vuelto “más perezoso” y “más tonto”, con respecto a ChatGPT, Zou cree que “es difícil decir que ChatGPT está empeorando uniformemente, pero ciertamente no siempre está mejorando en todas las áreas”.
Las razones de esta falta de mejora, o descenso del rendimiento en algunas áreas clave, son difíciles de explicar porque su enfoque de desarrollo en caja negra significa que no hay transparencia sobre cómo la organización está actualizando o afinando sus modelos entre bastidores.
Sin embargo, Peter Welinder, Vicepresidente de Producto de OpenAI, se ha mostrado en contra de los críticos que han sugerido que GPT-4 está en declive, pero sugiere que los usuarios son cada vez más conscientes de sus limitaciones.
“No, no hemos hecho la GPT-4 más tonta. Todo lo contrario: cada nueva versión es más inteligente que la anterior“. Hipótesis actual: Cuando la usas más, empiezas a notar problemas que antes no veías”, explica Welinder en un mensaje de Twitter.
No, we haven't made GPT-4 dumber. Quite the opposite: we make each new version smarter than the previous one.
Current hypothesis: When you use it more heavily, you start noticing issues you didn't see before.
— Peter Welinder (@npew) July 13, 2023
Aunque la creciente concienciación de los usuarios no explica por completo el declive de la capacidad de GPT-4 para resolver problemas matemáticos y generar código, los comentarios de Welinder ponen de relieve que, a medida que aumenta la adopción por parte de los usuarios, éstos y las organizaciones irán adquiriendo una mayor conciencia de las limitaciones que plantea la tecnología.
Otros problemas de la GPT
Aunque existen muchos casos potenciales de uso de la GPT que pueden aportar un valor real a las organizaciones, las limitaciones de esta tecnología son cada vez más evidentes en una serie de áreas clave.
Por ejemplo, otro trabajo de investigación, elaborado por los investigadores del laboratorio de IA de Tencent Wenxiang Jiao y Wenxuan Wang, descubrió que la herramienta podría no ser tan buena traduciendo idiomas como se suele sugerir.
El informe señala que, aunque ChatGPT compite con productos de traducción comerciales como Google Translate en la traducción de idiomas europeos, “se queda muy atrás” en la traducción de idiomas lejanos o con pocos recursos.
Al mismo tiempo, muchos investigadores de seguridad se muestran críticos con las capacidades de los LLM dentro de los flujos de trabajo de ciberseguridad, ya que el 64,2% de los investigadores whitehat informaron de que ChatGPT mostraba una precisión limitada a la hora de identificar vulnerabilidades de seguridad.
Del mismo modo, el proveedor de gestión de código abierto Endor Labs ha publicado un estudio que indica que los LLM sólo pueden clasificar con precisión el riesgo de malware en el 5% de los casos.
Por supuesto, también es imposible pasar por alto la tendencia que tienen los LLM a alucinar, inventar hechos y exponerlos a los usuarios como si fueran correctos.
Muchos de estos problemas se derivan del hecho de que los LLM no piensan, sino que procesan las consultas de los usuarios, aprovechan los datos de entrenamiento para inferir el contexto y, a continuación, predicen un texto de salida. Esto significa que pueden predecir tanto respuestas correctas como incorrectas (por no mencionar que los sesgos o imprecisiones del conjunto de datos pueden trasladarse a las respuestas).
Por lo tanto, está muy lejos de poder cumplir la promesa de actuar como precursor de la inteligencia general artificial (AGI).
¿Cómo está siendo la acogida pública de ChatGPT?
La recepción pública en torno a ChatGPT es muy variada, con consumidores que comparten actitudes optimistas y pesimistas sobre las capacidades de la tecnología.
Por un lado, el Instituto de Investigación Capgemini encuestó a 10.000 personas en Alemania, Australia, Canadá, España, Estados Unidos, Francia, Italia, Japón, Noruega, Países Bajos, Reino Unido, Singapur y Suecia, y descubrió que el 73% de los consumidores confía en los contenidos escritos por IA generativa.
Muchos de estos usuarios confiaban en las soluciones de IA generativa hasta el punto de estar dispuestos a pedir consejo financiero, médico y sobre relaciones a un asistente virtual.
En el lado opuesto, hay muchos que se muestran más inquietos ante esta tecnología. Una encuesta realizada por Malwarebytes reveló que no sólo el 63% de los encuestados no confiaba en la información que producen los asistentes virtuales generativos, sino que el 81% se mostraba preocupado por los posibles riesgos para la seguridad y la protección.
Queda por ver cómo cambiará esta situación en el futuro, pero está claro que la expectación en torno a esta tecnología aún no ha desaparecido, aunque cada vez sean más evidentes los problemas de rendimiento.
¿Qué significan los problemas de rendimiento de GPT para las empresas?
Aunque las soluciones de IA generativa como ChatGPT siguen ofreciendo valiosos casos de uso a las empresas, éstas deben ser mucho más proactivas a la hora de supervisar el rendimiento de las aplicaciones de esta tecnología para evitar problemas posteriores.
En un entorno en el que el rendimiento de LLM como GPT-4 y GPT-3.5 es inconsistente en el mejor de los casos o está en declive en el peor, las organizaciones no pueden permitirse que los empleados confíen ciegamente en el resultado de estas soluciones y deben evaluar continuamente el resultado de estas soluciones para evitar ser mal informados o difundir información errónea.
afirma Zou:
“Recomendamos seguir nuestro planteamiento de evaluar periódicamente las respuestas de los LLM a una serie de preguntas que recogen escenarios de aplicación relevantes. Paralelamente, también es importante diseñar la cadena descendente para que sea robusta ante pequeños cambios en los LLM”.
La AGI sigue estando muy lejos
Para los usuarios que se entusiasmaron con GPT, la realidad de sus limitaciones de rendimiento significa que es un fracaso. Sin embargo, puede seguir siendo una herramienta valiosa para las organizaciones y los usuarios que sean conscientes de sus limitaciones e intenten superarlas.
Tomar medidas, como comprobar dos veces los resultados de los LLM para asegurarse de que los hechos y otra información lógica son correctos, puede ayudar a garantizar que los usuarios se benefician de la tecnología sin ser engañados.