OpenAI ha anunciado hoy Chat-GPT 4o, o GPT-4o, una importante actualización del gran modelo de lenguaje (LLM) que utilizan en la actualidad más de 100 millones de personas.
Las funciones, que se desplegarán a lo largo de las próximas semanas, ponen la voz y el vídeo al alcance de todos los usuarios -gratuitos o de pago-, y lo que más llama la atención es la diferencia que supone utilizar la voz y el vídeo para interactuar con Chat GPT 4o.
Los cambios, según explicó OpenAI a los espectadores en la retransmisión en directo, tienen como objetivo “reducir la fricción” entre “humanos y máquinas”, y “acercar la IA a todo el mundo”.
En una impresionante demostración, la jefa de tecnología y presentadora Mira Murati, junto con desarrolladores de ChatGPT, mantienen conversaciones en tiempo real con ChatGPT, pidiéndole un cuento para dormir.
GPT-4o incluso hace bromas con distintas voces, desde juguetonas a dramáticas, pasando por cantarinas, a petición del investigador de OpenAI Mark Chen.
En esta guía repasaremos algunos de los puntos más importantes que tiene esta nueva versión del Chat GPT 4o.
Puntos clave del Chat GPT 4o
- Chat-GPT 4o de OpenAI introduce funciones de voz y vídeo, lo que permite a los usuarios interactuar con el modelo mediante entradas de voz y vídeo.
- La actualización pretende reducir la fricción entre humanos y máquinas aprovechando las capacidades avanzadas de la IA para crear interacciones más naturales y fluidas.
- GPT-4o puede entablar conversaciones en tiempo real, responder a varios interlocutores simultáneamente e incluso simular emociones, lo que añade profundidad y riqueza a las interacciones.
- La actualización incluye mejoras de calidad y velocidad en más de 50 idiomas, así como una versión de escritorio para usuarios de Mac.
- OpenAI reconoce los retos relacionados con el uso indebido de las capacidades de audio y vídeo en tiempo real, y subraya que trabajará con las partes interesadas para abordar estos retos de forma responsable.
- GPT-4o se desplegará de forma iterativa en las próximas semanas e incluirá una aplicación de escritorio para Mac.
Cuando se utiliza el vídeo, el ChatGPT mantiene conversaciones en tiempo real con los ingenieros: resuelve ecuaciones matemáticas escritas en papel delante de la lente del teléfono mientras mantiene una conversación lúdica en tiempo real.
Puedes ver la retransmisión en directo de OpenAI
OpenAI afirma que las funciones, que se irán desplegando a lo largo de las próximas semanas, también mejorarán la calidad y la velocidad en más de 50 idiomas “para llevar esta experiencia al mayor número de personas posible”.
La actualización también incluye una versión de escritorio, que se lanza hoy en Mac y está disponible para usuarios de pago.
El equipo habló de profesores universitarios que ofrecen herramientas a sus alumnos o podcasters que crean contenidos para sus usuarios y de cómo se pueden utilizar datos en tiempo real en su trabajo.
OpenAI afirma que Chat GPT 4o (la “o” significa “Omni”) puede responder a entradas de audio en tan solo 232 milisegundos, con una media de 320 milisegundos, similar al tiempo de respuesta humano en una conversación.
Aunque las funciones también estarán disponibles para los usuarios gratuitos, OpenAI también habló de cómo los usuarios Pro no se quedan fuera, pudiendo acceder a una capacidad hasta cinco veces mayor.
Los cambios también afectarán a la interfaz de programación de aplicaciones (API), que será dos veces más rápida y 50 veces más barata.
it is available to all ChatGPT users, including on the free plan! so far, GPT-4 class models have only been available to people who pay a monthly subscription. this is important to our mission; we want to put great AI tools in the hands of everyone.
— Sam Altman (@sama) May 13, 2024
Una característica impresionante de la voz y el vídeo fue que los tres presentadores hablaron con ChatGPT al mismo tiempo: la inteligencia artificial (IA) discernió con éxito a todos los oradores y respondió a cada uno de ellos.
Algunos usuarios de X, antes Twitter, compararon la nueva versión de ChatGPT con la película “Her”, en la que la omnisciente compañera de la IA era indistinguible de una personalidad humana.
También vimos traducción en tiempo real entre italiano e inglés, basada en una pregunta de un usuario en Twitter.
OpenAI declaró que “GPT-4o presenta nuevos retos para el audio en tiempo real y la visión en tiempo real contra el uso indebido, y seguimos trabajando con diferentes partes interesadas… para averiguar la mejor manera de llevar estas tecnologías al mundo”.
Por lo tanto, las funciones se irán desplegando de forma iterativa a lo largo de las próximas semanas, con las salvaguardias intactas.
OpenAI afirma en su blog:
“En los dos últimos años hemos dedicado muchos esfuerzos a mejorar la eficiencia en todos los niveles de la pila.
“Como primer fruto de esta investigación, podemos poner a disposición de un público mucho más amplio un modelo de nivel GPT-4o. Las capacidades de GPT-4o se irán desplegando de forma iterativa (con acceso ampliado del equipo rojo a partir de hoy).
Las funciones de texto e imagen de GPT-4o empiezan a desplegarse hoy en ChatGPT. GPT-4o está disponible en el nivel gratuito y para los usuarios Plus con un límite de mensajes hasta 5 veces superior. En las próximas semanas lanzaremos una nueva versión del modo de voz con GPT-4o en alfa dentro de ChatGPT Plus”.
OpenAI ha elegido un buen día para lanzar esta actualización, un día antes de la conferencia de desarrolladores de Google I/O, en la que se espera que la IA esté muy presente.
Vale la pena echarme una mirada a este Chat GPT 4o que sin duda ha sido de gran avance tecnológico y que seguramente dará paso a nuevas actualizaciones más adelantes.