Puntos clave
- OpenAI anuncia el lanzamiento de un nuevo modelo llamado OpenAI o1.
- El modelo presenta capacidades de razonamiento mejoradas y tarda más en responder a las indicaciones del usuario.
- Esto se produce la misma semana en que la startup de IA ha alcanzado una valoración de 150.000 millones de dólares.
- OpenAI o1 utiliza RLF+COF para aumentar la alineación de las respuestas.
- Expertos de todo el mundo de la IA comparten sus reacciones a Techopedia, de mixtas a positivas.
- El lanzamiento de ChatGPT 5 sigue en el futuro.
La velocidad no lo es todo. Mientras que la mayoría de los modelos de IA se han optimizado para dar respuestas lo más rápido posible, el nuevo modelo OpenAI o1 se ha diseñado para ir más despacio y tomarse su tiempo para responder a las entradas del usuario.
“Publicamos un avance de OpenAI o1, una nueva serie de modelos de IA diseñados para dedicar más tiempo a pensar antes de responder”, explica OpenAI en un post en X.
“Estos modelos pueden razonar a través de tareas complejas y resolver problemas más difíciles que los modelos anteriores en ciencia, codificación y matemáticas”.
Sin embargo, aunque OpenAI o1 tiene algunas implicaciones interesantes para el desarrollo de las capacidades de razonamiento de los grandes modelos lingüísticos (LLM), es poco probable que entusiasme a quienes esperaban un lanzamiento de GPT 5. Después de todo, una valoración de 150.000 millones de dólares conlleva expectativas implacables, sobre todo en el cambiante mundo de la IA.
Analizamos las afirmaciones de OpenAI sobre la mejora del razonamiento y por qué ralentizar es la nueva forma de acelerar o, en otras palabras, pensar antes de hablar.
¿Por qué la OpenAI o1 tiene mejor razonamiento?
Como parte de sus capacidades de razonamiento, o1 utiliza el aprendizaje por refuerzo (RL) para optimizar su cadena de pensamiento, refinando gradualmente las estrategias que utiliza para generar respuestas. Este enfoque significa que puede reconocer y corregir errores sin supervisión humana.
El profesor de informática Tom Yeh publicó un post en el que explicaba que en el aprendizaje por refuerzo «tradicional» a partir de la retroalimentación humana (RLHF), una indicación inicial y la salida del modelo se introducen en un modelo de recompensa, que luego evalúa la calidad de la respuesta y ayuda a alinear mejor el LLM.
Puedes añadir RLHF+COT-Cadena de Pensamiento, en la que el modelo procesa la indicación del usuario y luego «piensa» por pasos antes de generar una respuesta y enviar finalmente los datos al modelo de recompensa.
Utilizar COT en este contexto significa que el modelo desarrollará una explicación paso a paso de su proceso de razonamiento para su respuesta.
Introduce Inferencia+CoT en la mezcla, como ha hecho OpenAI, y el modelo razonará por sí mismo sin necesidad de la mano guía de un humano para llegar a la respuesta.
Esto permite al modelo razonar y cuestionarse a sí mismo antes de dar una respuesta al usuario y reduce la necesidad de supervisión humana. Los tokens de CoT en esta versión siguen siendo invisibles para los usuarios.
OpenAI o1 mantiene el impulso… sólo
Di lo que quieras de OpenAI, pero la mayor startup de IA del mundo sabe cómo mantener el impulso incluso cuando no tiene previsto un gran lanzamiento emblemático.
Desde el lanzamiento de la GPT-4 en marzo de 2023, la gente ha estado esperando el lanzamiento de la GPT-5, pero más de un año después, todavía no hay fecha de lanzamiento confirmada.
Por supuesto, la falta de lanzamiento de la GPT-5 no parece haber frenado a OpenAI. Lanzamientos intermitentes como GPT-4 Turbo, GPT-4V, GPT-4o, GPT personalizadas y ahora o1 han mantenido el nombre del proveedor de IA en el ciclo de noticias.
¿Cuál es el argumento de venta de Open o1? Bueno, sus capacidades de razonamiento le permiten resolver problemas complejos en áreas clave como la ciencia, la codificación y las matemáticas.
Como dijo a Techopedia Sandi Besen, investigadora de inteligencia artificial aplicada de IBM:
“Creo que OpenAI se está centrando en mejorar una de las mayores limitaciones de los modelos lingüísticos: el razonamiento. Las evaluaciones del rendimiento de la versión preliminar de o1 en un entorno de preguntas y respuestas parecen prometedoras.
«En particular, su rendimiento en los puntos de referencia de derecho, en los que la respuesta suele requerir un razonamiento de varios pasos y mucha información que se utiliza como contexto».
De hecho, según OpenAI, el modelo tiene un rendimiento similar al de los estudiantes de doctorado en «tareas de referencia desafiantes» en física, química y biología, y también destaca en matemáticas y codificación.
Ofrece un mejor rendimiento que GPT-4o en algunas áreas. Por ejemplo, en un examen de clasificación para la Olimpiada Internacional de Matemáticas (IMO), GPT-4o sólo resolvió correctamente el 13% de los problemas, mientras que o1 obtuvo un 83%.
¿Por qué no debemos entusiasmarnos demasiado con OpenAI o1?
Aunque este enfoque innovador del razonamiento tiene implicaciones interesantes para el futuro, la publicación de OpenAI o1 como solución en sí misma es decepcionante.
Los tokens COT no están disponibles para los usuarios, lo que ofrece poca transparencia sobre el proceso de razonamiento del modelo, y el propio modelo es bastante lento, con respuestas a preguntas complejas que tardan minutos.
Incluso Sam Altman parece decepcionado con el lanzamiento. «Aquí está o1, una serie de nuestros modelos más capaces y alineados hasta ahora», dijo Sam Altman en un post en X.
«O1 sigue teniendo fallos, sigue siendo limitado y sigue pareciendo más impresionante en el primer uso que después de pasar más tiempo con él».
here is o1, a series of our most capable and aligned models yet:https://t.co/yzZGNN8HvD
o1 is still flawed, still limited, and it still seems more impressive on first use than it does after you spend more time with it. pic.twitter.com/Qs1HoSDOz1
— Sam Altman (@sama) September 12, 2024
La entrada del blog del anuncio de OpenAI también señalaba que OpenAI o1 aún no tiene muchas de las funciones que hacen útil a ChatGPT, como navegar por Internet en busca de información y subir archivos e imágenes, aunque supone un avance significativo en tareas de razonamiento complejas.
Aunque ha habido mucho sentimiento positivo en torno al lanzamiento, no todo el mundo en este campo se ha mostrado demasiado entusiasmado con él.
Sean Ran, director general y cofundador de Sahara AI, declaró a Techopedia:
“No me siento muy entusiasmado, para ser sincero. Poniéndome el sombrero de investigador/profesor de IA, lo veo como una señal de que el primer principio del desarrollo de modelos no ha cambiado: seguimos buscando aplicar el aprendizaje basado en recompensas sobre grandes cantidades de datos para mejorar el modelo, sólo que con algoritmos más específicos.”
Reacciones iniciales de los expertos a OpenAI o1
Para hacerse una idea del lanzamiento, Techopedia se puso en contacto con varios expertos para averiguar qué opinaba la comunidad tecnológica del nuevo modelo de OpenAI. En general, las respuestas fueron bastante positivas.
Alon Yamin, cofundador y director general de Copyleaks, dijo:
“La publicación del modelo o1 de OpenAI marca un verdadero hito en el desarrollo de la IA generativa. Su capacidad para evaluar los pasos antes de proceder es realmente innovadora.
“Hasta ahora, los modelos de IA han tenido problemas con los matices, así que me intriga ver lo bien que se comporta el modelo o1 en ese ámbito. Me entusiasman los posibles avances en matemáticas, ciencias y codificación que este modelo podría desbloquear, especialmente en la enseñanza superior.”
Del mismo modo, Besen también se mostró bastante entusiasmado con el potencial del lanzamiento.
«En general, estoy entusiasmado con el potencial de los modelos que tienen mejores habilidades de razonamiento desde el principio, sin tener que añadir métodos adicionales por encima utilizando indicaciones (ReAct, Cadena de Pensamiento, etc.) u otra llamada adicional del modelo de lenguaje para planificar tareas más complejas».
«Tengo la esperanza de que la mayor capacidad de razonamiento mejore la precisión y, por tanto, se gane la confianza de los líderes empresariales para escalar más casos de uso de GenAI».
En última instancia, OpenAI o1 demuestra cómo un enfoque alternativo al entrenamiento de la IA puede ayudar a mejorar la capacidad de razonamiento de los LLM en su conjunto.
Dicho esto, OpenAI o1 podría recibir, como mucho, una tibia respuesta de los usuarios que esperaban un gran lanzamiento de LLM del Proyecto Strawberry.
En resumidas cuentas
OpenAI o1 parece un interesante lanzamiento de nicho, pero es poco probable que esté a la altura del bombo que tuvo como Proyecto Strawberry.
Pero eso podría ser injusto con OpenAI; están abordando los distintos enfoques de la IA de formas diferentes y luego ofrecen al público la posibilidad de probarlos experimentalmente.
En cualquier caso, OpenAI o1 plantea algunas cuestiones interesantes sobre cómo evolucionará el razonamiento de la IA en los próximos años.