Sora, de Open AI: ¿El mejor generador de vídeos de IA?

Fiabilidad

La historia de OpenAI es a menudo como ver una nueva serie de televisión. Hace un par de días, Andrej Karpathy, investigador de OpenAI, abandonó la empresa por segunda vez, pero esta vez aseguró a sus seguidores que el drama había sido mínimo.

Sin embargo, hoy sólo se habla de la inesperada presentación de la herramienta de IA de conversión de texto en vídeo de la empresa, Sora, que permite a los usuarios dar vida a sus palabras transformando mensajes de texto en vídeos de hasta un minuto de duración.

¿Son los generadores de texto a vídeo un paso adelante en las capacidades generativas de la IA después de los generadores de arte y los generadores de voz? ¿Y qué significa la introducción de Sora en el mercado para todos los que trabajan en la creación de vídeos?

Veamos qué es Sora y si merece la pena tanto bombo y platillo.

Puntos clave

  • Sora, de OpenAI, introduce herramientas de conversión de texto a vídeo, democratizando la expresión creativa al poner la producción de vídeo al alcance de todos.
  • Con Sora, el único límite para dar vida a narraciones imaginativas es la imaginación del usuario, eliminando las barreras tradicionales en el proceso creativo.
  • Su avanzada simulación del mundo físico y su profundo conocimiento del lenguaje permiten crear escenas complejas y realistas a partir de sencillas instrucciones de texto.
  • Sora no está exento de defectos, ya que presenta fallos y alucinaciones que ponen de manifiesto los retos de la simulación de la realidad.

¿Qué es Sora y cómo funciona?

Sora es un modelo de inteligencia artificial capaz de crear escenas realistas e imaginativas a partir de mensajes de texto.

En lugar de sustituir a la creatividad, Sora está reduciendo la barrera de entrada y permitiendo a cualquiera dar vida a sus ideas de vídeo.

En teoría, el único límite es tu imaginación. Así, si escribes: “Un mamut lanudo y Batman pasean por las bulliciosas calles de Tokio, mientras un perro curioso deambula por los callejones vacíos cercanos”, Sora dará vida a tu idea en un vídeo de un minuto.

Sora destaca por su gran capacidad para simular meticulosamente el mundo físico en movimiento, creando escenas y narraciones visualmente impresionantes enriquecidas con personajes complejos, movimientos específicos y fondos detallados.

Ya sea generando un vídeo desde cero, animando una imagen fija o ampliando el metraje existente, Sora promete una mezcla perfecta de creatividad y realismo, poniendo la producción de vídeo al alcance de todos con sólo pulsar unas teclas.

¿Está listo Sora? ¿Dónde puedo probarlo?

Si estás buscando “¿Cómo puedo probar Sora?” tendrás que esperar antes de poder ponerte manos a la obra con la nueva herramienta de conversión de texto en vídeo.

Aunque OpenAI ha revelado el debut público de Sora, actualmente se encuentra en una fase de red-teaming, en la que la herramienta está siendo sometida a pruebas para evitar que genere contenidos dañinos o inadecuados.

Según la discusión en el foro de desarrolladores de OpenAI, no hay forma de solicitar acceso por el momento.

“Entiendo perfectamente por qué estáis tan emocionados, yo también lo estoy. Publicaremos información sobre la lista de espera en cuanto haya una disponible”, respondió el desarrollador.

Pero echemos un vistazo a lo que sabemos hasta ahora.

¿Cómo se compara Sora con sus competidores?

Tenemos que pensar más allá del uso de Sora y otros similares para generar contenidos de vídeo. Se trata de redefinir cómo concebimos y producimos narrativas visuales.

En esencia, Sora está diseñado para comprender y simular el mundo físico en movimiento. A diferencia de sus predecesores y competidores actuales, Sora puede generar vídeos de hasta un minuto de duración, manteniendo una impresionante calidad visual y una estricta adherencia a la indicación del usuario. Esta capacidad supone un avance hacia una narración digital más dinámica, atractiva y auténtica.

Sora se distingue por su profundo conocimiento del lenguaje y una avanzada simulación de la física del mundo real.

Esta combinación permite crear escenas complejas que incluyen múltiples personajes, tipos específicos de movimiento y detalles precisos de los sujetos y sus fondos.

Para los profesionales creativos, esto significa un control y una fidelidad sin precedentes a la hora de dar vida a sus visiones.

Sora contra Pika de OpenAI Pika vs. Comparación de Runday

Factor de Comparación Sora Pika Runway
Objetivo principal Creación de videos a partir de texto con un enfoque realista humano Generación de videos animados a partir de imágenes con adaptación de estilo Suite extensa de edición de video con capacidades de creación mejoradas por IA
Duración máxima de salida Hasta un minuto Tres segundos como máximo Cuatro segundos como máximo
Capacidades principales Excepcionalmente capaz Moderadamente capaz Altamente capaz
Métodos de entrada Mayoritariamente basado en texto Centrado en imágenes con instrucciones textuales ocasionales Entradas versátiles incluyendo imágenes, videoclips y datos textuales
Variedad en la salida Orientado a producir representaciones realistas Artístico y animado con un toque estilizado Espectro amplio desde artístico hasta realista, dependiente de la herramienta
Modelo de costos Por determinar Complementario durante la fase de acceso temprano Modelo de suscripción
Accesibilidad actual Esperando lanzamiento público Abierto para acceso, con posibles limitaciones para imágenes intrincadas o abstractas Disponible, pero podría ser complejo sin conocimientos previos de edición de video
Fortalezas notables Sobresale en representaciones realistas y en interpretar escenarios complejos Maestría en animación artística y añadiendo estilo a imágenes fijas Opciones de edición diversas e integración de IA para un toque profesional
Adaptabilidad Se adapta a indicaciones de guion Personalizable según la dirección creativa del usuario Ofrece características de personalización extensivas

Mecanismos de protección contra el uso indebido y casos de uso ilimitados de Sora

Sin embargo, la diferenciación de Sora va más allá de sus proezas técnicas.

El compromiso de OpenAI con la seguridad, el uso ético y la mejora continua a través de los comentarios de diversos usuarios -incluidos artistas visuales, diseñadores y cineastas- subraya un enfoque responsable del desarrollo de la IA.

Al colaborar con los equipos rojos para evaluar las áreas críticas en busca de daños o riesgos e incorporar clasificadores de detección, OpenAI pretende mitigar los posibles usos indebidos y garantizar que las capacidades de Sora se aprovechen para fines positivos y creativos.

El potencial de Sora para su aplicación en el mundo real se extiende a áreas que requieren una simulación detallada de interacciones físicas, lo que permite vislumbrar el futuro de la creación de contenidos asistida por IA.

Su capacidad para generar vídeos a partir de instrucciones textuales o ampliar vídeos ya existentes proporciona una herramienta versátil para la narración de historias, la educación, el entretenimiento y mucho más.

Desentrañar las alucinaciones de los modelos de texto a vídeo

A medida que los probadores empiezan a experimentar con esta nueva herramienta de conversión de texto en vídeo basada en la IA, es esencial reconocer que la herramienta no está exenta de imperfecciones.

Los usuarios ya han observado una serie de fallos y alucinaciones en los vídeos generados por Sora, lo que pone de manifiesto una notable brecha entre las capacidades de la IA y la realidad sin fisuras que experimentamos.

Por ejemplo, escenarios como “arqueólogos que descubren una silla de plástico que flota inexplicablemente por la escena” captan la esencia de estas inconsistencias oníricas.

Estos peculiares fallos físicos, como la aparición y desaparición espontánea de animales y personas en escenas multitudinarias, ponen de manifiesto la dificultad de la IA para simular con precisión la física del mundo real, lo que sugiere que estos errores son artefactos del procesamiento del modelo más que reflejos de los datos con los que se entrenó.

Este fenómeno de Sora produciendo vídeos con errores surrealistas recuerda a lo que en los modelos de aprendizaje de idiomas (LLM) se conoce como alucinaciones, en las que el resultado se desvía significativamente de los patrones lógicos o esperados.

No se trata de meras rarezas, sino más bien de un indicio de las limitaciones subyacentes del modelo a la hora de comprender y reproducir las complejidades del mundo físico.

Desde sillas que flotan hasta personajes que desaparecen sin dejar rastro, los fallos observados ponen de manifiesto las dificultades para salvar la distancia entre los contenidos generados por la IA y el comportamiento matizado y predecible de las entidades en el mundo real.

A pesar de los impresionantes avances logrados por OpenAI con Sora, estas peculiaridades nos recuerdan el camino que queda por recorrer para conseguir sistemas de IA capaces de captar y representar las complejidades de nuestra realidad física sin sucumbir a estas aberraciones oníricas.

Pero no nos equivoquemos, estamos vislumbrando un futuro muy diferente.

La responsabilidad de aprovechar las herramientas de vídeo de IA para el bien

Mientras nos preparamos para entrar en una nueva era de disrupción digital, el impacto de las herramientas de IA de texto a vídeo podría engullir industrias enteras.

Por ejemplo, es difícil ver cómo un mercado mundial de vídeo de archivo valorado en 5.430 millones de dólares puede competir con una herramienta que, con el tiempo, podría dejar obsoletos a los proveedores de material de archivo.

Es fácil entender por qué la huelga de guionistas de Hollywood fue sólo la punta del proverbial iceberg.

Muchos se preguntarán ahora qué significará Sora para el futuro a largo plazo de videógrafos, directores y cineastas.

Por ejemplo, muchos creativos están entusiasmados con la idea de generar vídeos de un minuto a partir de un texto. Pero imaginemos el poder de las herramientas de IA en 2034 y la posibilidad de generar películas, anuncios y programas de televisión de hasta una o dos horas de duración en cuestión de minutos, prescindiendo por completo de los estudios tradicionales.

Estamos asistiendo al comienzo de un cambio sísmico en la creación de contenidos que está remodelando el tejido mismo del entretenimiento tal como lo conocemos.

El último lanzamiento de OpenAI debería ser un recordatorio oportuno de cuánta gente ha subestimado hasta qué punto la IA lo cambiará todo.

El año pasado, muchos hablaron de cómo GPT-4 vencía fácilmente al 90% de los abogados que intentaban aprobar el examen de abogacía.

Pero 12 meses después, estamos debatiendo la inevitable llegada de los anuncios generados por IA y sus repercusiones en la industria publicitaria y en los creadores humanos.

Este año, 64 países que representan una población combinada de cerca del 49% del mundo irán a las elecciones.

La IA ha hecho que la creación de noticias ficticias añada más calor a los acontecimientos y facilite el impulso de una narrativa. Los vídeos, en los que la gente confía intrínsecamente, podrían producirse rápidamente desde diversas perspectivas, difundirse en línea y, a continuación, amplificarse mediante bots que utilizan plataformas similares a ChatGPT a través de comentarios, debates y comparticiones.

La promesa de contenidos multimedia infinitos, personalizados e interactivos, incluidos temas tan controvertidos como el porno personalizado, presenta un arma de doble filo.

Si bien el potencial de innovación y experiencias personalizadas es ilimitado, también lo es la capacidad de uso indebido y los dilemas éticos. La perspectiva de poder engañar a la mayoría con contenidos hechos a medida no es sólo una preocupación teórica, sino una realidad tangible.

Este poder, que reside en manos de unos pocos que conocen a fondo estas tecnologías, conlleva una inmensa responsabilidad.

Al navegar por esta nueva era, debemos manejar este conocimiento con un compromiso de integridad y mejora de la sociedad. Las decisiones que tomemos hoy configurarán el panorama moral de nuestro futuro digital, instándonos a actuar con prudencia y a garantizar que los avances de la IA contribuyan positivamente a nuestra experiencia colectiva.

La revolución cultural: El papel de la IA en la democratización de la creatividad

La integración de la IA en las industrias creativas supone un cambio transformador hacia la inclusión y la diversidad.

Está derribando antiguas barreras que históricamente han restringido la expresión creativa a unos pocos privilegiados. Esta nueva era, marcada por la democratización de la creatividad, no es sólo un avance tecnológico; es un renacimiento cultural que empodera a individuos de todo el mundo, independientemente de su situación económica, ubicación geográfica o destreza técnica.

Durante demasiado tiempo, los pensadores divergentes y las minorías han sido marginados, incapaces de permitirse los elevados costes de las suscripciones a programas informáticos como Adobe o el privilegio del tiempo para comprometerse a cinco años de educación formal para dominar las suites de software creativo.

Desde plataformas de diseño impulsadas por IA que eliminan la empinada curva de aprendizaje del software profesional hasta herramientas de composición musical que componen bandas sonoras a medida, las barreras de entrada se están derrumbando.

Lo esencial

La presentación de Sora, de OpenAI, resume el inmenso potencial de la tecnología de conversión de texto en vídeo y los retos inherentes.

Sora promete democratizar la producción de vídeo como innovadora herramienta de vídeo con IA, ofreciendo una plataforma en la que la imaginación es el único límite para la creación.

Pero también nos recuerda las imperfecciones de la herramienta, como los fallos y las alucinaciones. Esto pone de manifiesto la brecha existente entre el potencial de la IA y su realidad actual.

En un futuro en el que la creación de contenidos sea accesible a un público más amplio, fomentar una comunidad creativa más integradora es un gran paso adelante.

Pero a medida que avanzamos, somos responsables de aprovechar estos avances éticamente, asegurándonos de que contribuyen positivamente a la sociedad y no exacerban involuntariamente las desigualdades existentes.

Temas relacionados

Neil C. Hughes
Senior Technology Writer
Neil C. Hughes
Experto en Tecnología

Neil es un periodista tecnológico independiente con más de dos décadas de experiencia en tecnologías de la información. Reconocido como una de las Voces Principales en tecnología en LinkedIn y destacado por CIO Magazine y ZDNet por sus perspicaces aportes, Neil ha contribuido a publicaciones como INC, TNW, TechHQ y Cybernews, además de ser el anfitrión del popular podcast Tech Talks Daily.