¿Es bueno ChatGPT o3? Primeras impresiones del mejor modelo de IA de OpenAI

Fiabilidad

OpenAI terminó 2024 presentando su modelo de inteligencia artificial de próxima generación, ChatGPT o3, calificándolo de nuevo salto en IA.

Partiendo de la base de sus predecesores, OpenAI promete avances en el razonamiento y la resolución de problemas y ha desatado el debate sobre lo cerca que estamos de la inteligencia artificial general.

No cabe duda de que el nuevo modelo ha despertado la confianza en OpenAI. Como dijo el CEO Sam Altman a principios de enero de 2025: “Ahora estamos seguros de que sabemos cómo construir AGI”.

ChatGPT o3 sigue en fase de pruebas de acceso temprano, pero los puntos de referencia de rendimiento revelados hasta ahora son innegablemente impresionantes.

Techopedia explora lo que o3 aporta al mundo de la IA y pide a los expertos su opinión sobre el nuevo modelo.

Puntos clave:

  • OpenAI anuncia el desarrollo y lanzamiento temprano de ChatGPT de o3 y o3-mini.
  • o3 demuestra un rendimiento impresionante en tareas de razonamiento visual, codificación y matemáticas.
  • El modelo también obtuvo una puntuación del 87,5% en el test ARC-AGI, una referencia para evaluar la inteligencia general.
  • Según Codeforces, o3 también está «entre los 200 mejores programadores humanos».
  • Los expertos sugieren que o3 cambiará lo que la IA puede hacer, pero los críticos señalan que ARC-AGI no es una medida de AGI.

Todo lo que sabemos hasta ahora sobre o3

El modelo fronterizo o3 de OpenAI es la continuación de o1. Cuenta con una cadena de razonamiento que le permite pensar antes de responder. En resumen, divide su razonamiento en varios pasos para resolver problemas complejos.

El modelo también incluye una API de «tiempo de pensamiento adaptativo», que permite a los usuarios alternar entre varios modelos de razonamiento (bajo, medio y alto) para determinar el nivel de velocidad y precisión del modelo en un escenario determinado.

Hasta ahora, uno de los principales argumentos de venta de o3 ha sido su rendimiento en la prueba ARC-AGI, que pone a prueba la capacidad de razonamiento visual de los modelos exigiéndoles que resuelvan rompecabezas abstractos.

o3, entrenado con el conjunto de datos de entrenamiento público ARC-AGI-1, obtuvo una puntuación del 75,7% dentro del límite de 10.000 dólares de cálculo. Además, una versión de alto cálculo obtuvo una puntuación del 87,5%. Como referencia, un estudio de la Universidad de Nueva York reveló que el rendimiento humano medio en tareas ARC oscilaba entre el 73,3% y el 77,2%.

Thomas Randall, director de investigación de Info-Tech Research Group, declaró a Techopedia:

“El aumento de la deliberación y el tiempo dedicado a comprobar sus resultados es digno de elogio. La familia de modelos o3 puede tener algún retraso mientras procesa la información, pero la fiabilidad del resultado es mucho mayor».

A pesar de los resultados positivos de o3, Randall destaca algunas limitaciones, en particular el coste.

“Hasta el punto de que OpenAI ha afirmado que los modelos de o3 pueden cumplir el “entendimiento convencional” de la referencia AGI. Sin embargo, el coste de hacerlo no es económico en la actualidad: el alto nivel de computación cuesta miles de dólares por tarea».

Ese coste puede resultar desalentador cuando llegue la fecha de lanzamiento de Chatgpt o3, pero para usuarios avanzados o empresas, puede merecer la pena el precio.

¿En qué es bueno o3?

Según la información disponible, o3 destaca en tareas matemáticas y de codificación. En el pasado, muchos comentaristas han criticado a ChatGPT por tener problemas con las matemáticas.

Sin embargo, el uso del razonamiento en cadena y otras técnicas está ayudando a mejorar el rendimiento en este tipo de tareas y a demostrar su capacidad para entender conceptos matemáticos abstractos.

En codificación, o3 obtuvo una puntuación de 2.727 en el sistema de clasificación de codificación competitiva Codeforces. Esto sitúa a o3 entre los 200 mejores programadores humanos clasificados en el momento de escribir este artículo, en enero de 2025. En comparación, o1 obtuvo 1.891 puntos en la misma prueba.

En matemáticas, o3 obtuvo un 96,7% en matemáticas de competición ( AIME 2024) y un 87,7% en preguntas de ciencias de nivel PHD (GPQA diamond scored). o1 obtuvo un 83,3% y un 78,0%, respectivamente, en estas tareas.

El rendimiento de o3 en estas pruebas de matemáticas y codificación sugiere una notable mejora desde el modelo de la generación anterior, que ha mejorado la resolución de problemas y la competencia en codificación de forma generalizada.

Métricas clave de rendimiento de OpenAI o3

Benchmark o1 o3
ARC-AGI 13.33% 75.7% y 87.5% (versión de alto cómputo)
Ingeniería de software (SWE-bench verificado) 48.9% de precisión 71.7% de precisión
Competencia de Código (Codeforces) 1891 2727
Competencia Matemática (AIME 2024) 83.3% de precisión 96.7% de precisión
Preguntas científicas a nivel de doctorado (GPQA Diamond) 78.0% de precisión 87.0% de precisión

¿Demuestra o3 la AGI?

Desde que se conoció la noticia de o3, se ha debatido si el modelo representa un hito significativo en el camino hacia la AGI.

Con puntuaciones de codificación que sitúan a o3 entre los 200 mejores programadores, es fácil dejarse llevar por el bombo de que este modelo podría venir a por los puestos de trabajo de los ingenieros de software.

Sin embargo, críticos como Gary Marcus han señalado que o3 no hizo la prueba a ciegas. El modelo fue entrenado en el benchmark ARC-AGI, por lo que es poco probable que hubiera alcanzado puntuaciones tan altas si no hubiera sido pre-entrenado en los criterios de la prueba. Esto significa que debemos tomar los resultados de las pruebas con cautela.

Dicho esto, Chollet, creador de ARC-AGI, calificó la puntuación de o3 de «gran avance» que «representa un gran paso adelante en la capacidad de la IA para adaptarse a nuevas tareas», aunque reconoció que el modelo no entrenado con ARC aún no se ha probado.

Chollet también aclaró que ARC-AGI no es una prueba de fuego para la inteligencia artificial y afirmó que: «o3 sigue fallando en algunas tareas muy fáciles, lo que indica diferencias fundamentales con la inteligencia humana».

Teniendo en cuenta estos factores, aún nos queda mucho camino por recorrer hacia la AGI, aunque o3 parece ser un participante muy prometedor en el mercado de la IA generativa.

Primeras impresiones: ¿Cómo reaccionan los expertos ante o3 hasta ahora?

Aunque o3 aún no se ha lanzado oficialmente, eso no ha impedido que los expertos en tecnología e IA anticipen lo que significa para el futuro.

Mike Knoop, cofundador de Zapier, se muestra muy optimista sobre el modelo de o3, publicando en X:

“o3 es realmente especial y todo el mundo tendrá que actualizar su intuición sobre lo que la IA puede/no puede hacer. Aunque aún es pronto, este sistema muestra un auténtico aumento de la inteligencia, canaried por ARC-AGI.”

Itamar Golan, director general y cofundador de Prompt Security, publicó un post en el que especulaba con que o3 tenía un coeficiente intelectual de 157 basándose en su clasificación de Codeforces, lo que lo haría «más inteligente» que el 99,25% de las personas (aunque utilizar el coeficiente intelectual como medida de las capacidades de los LLM es algo sobre lo que debemos ser cautos: los humanos y las máquinas no son lo mismo).

Otros usuarios creen que o3 afectará negativamente a las perspectivas de empleo de los programadores humanos principiantes.

Un usuario, conocido como Lisan al Gaib, posteó: «Los graduados en CS podrían honestamente estar en problemas», en respuesta a la alta calificación de codeforces de o3 que lo sitúa «en el percentil 95,95 de los programadores competitivos».

¿Cuál es el futuro de o3?

Dado lo que hemos visto hasta ahora, parece que o3 va a ser el modelo de OpenAI que establezca un nuevo enfoque más robusto del razonamiento, un área en la que los LLM como GPT-4 se han quedado cortos en el pasado.

El uso del razonamiento en cadena en o1 y o3 está sentando las bases de una nueva generación más fiable de grandes modelos lingüísticos (LLM) capaces de «pensar» antes de responder. Estos enfoques reducirán inevitablemente el problema de las alucinaciones, pero no está claro que puedan eliminarlas por completo.

Teniendo en cuenta el rendimiento de o3 en Codeforces, parece que vamos a ver cómo los LLM desempeñan un papel mucho más importante en el desarrollo de software, ayudando a los ingenieros a generar código o a identificar errores y problemas de rendimiento a un ritmo mucho mayor.

A pesar de las mejoras significativas, o3 parece ser más una herramienta complementaria para que los programadores aumenten sus capacidades de resolución de problemas que un sustituto.

Conclusión

o3 demuestra algunas capacidades impresionantes, pero no parece que la AGI vaya a llegar pronto. En cualquier caso, la capacidad de OpenAI para generar expectación en torno a sus lanzamientos demuestra por qué es la startup de IA número uno del mundo en estos momentos.

El rendimiento de o3 en tareas matemáticas y de codificación demuestra que la IA marcará fuertemente estas áreas en el futuro de una forma que pocas empresas pueden permitirse ignorar.

Preguntas frecuentes

¿Qué es ChatGPT O3?

¿Cuándo estará disponible ChatGPT O3?

¿Cómo acceder a ChatGPT O3?

¿Qué diferencia al O3 del O1?

¿Está ChatGPT O3 cerca de AGI?

¿Cómo afecta O3 al desarrollo de software?

Temas relacionados

Artículos relacionados

Tim Keary
Technology Writer
Tim Keary
Editor

Desde enero de 2017, Tim Keary ha sido un escritor y reportero de tecnología independiente que cubre tecnología empresarial y ciberseguridad.