La sortie de Sora AI, une IA générative de vidéo produite par Open AI, est imminente. Cette intelligence artificielle est capable de produire des vidéos de qualité cinématographique à partir d’une simple description et elle a été conçue par la société OpenAI, célèbre pour avoir mis au point ChatGPT. Voyons un peu plus en détails la date de sortie prévue et les fonctionnalités attendues de cet outil.
Quelle est la date de sortie prévue de Sora AI, par OpenAI ?
On ignore encore à ce stade la date de lancement officielle de Sora AI sur le marché grand public, mais on devrait selon les estimations pouvoir utiliser l’IA générative de vidéo d’OpenAI au plus tard à la fin de l’année 2024.
Mira Murati, la directrice chargée de la technologie chez OpenAI, a déclaré que « Sora sera disponible pour le grand public cette année », lors d’un entretien avec l’équipe du WSJ le 13 mars 2024.
Pour rappel, Mira Murati est une ingénieure en informatique qui a rejoint la société OpenAI en 2018, après avoir occupé des postes clés dans diverses entreprises telles que Tesla, Zodiac Aerospace ou encore la startup Leap Motion. Elle occupe aujourd’hui la fonction de directrice de la technologie chez OpenAI et elle participe de façon active au développement des principaux produits de l’entreprise comme ChatGPT, Dall-E, Codex et Sora.
Certaines rumeurs envisagent un lancement de Sora AI après les élections présidentielles américaines qui se dérouleront en novembre 2024. On sait que Sora AI a été spécialement entraîné pour ne pas générer de vidéos contenant des visages de politiciens, mais à quelques mois des scrutins électoraux, OpenAI cherche sans doute à ne pas déstabiliser les élections américaines et par la même occasion s’attirer la foudre de la FEC, la commission chargée de l’organisation des élections aux USA.
Sora AI : quelles fonctionnalités aura la nouvelle IA d’Open AI ?
Sora AI devrait offrir des fonctionnalités haut de gamme dans le domaine de l’IA générative de vidéos, telles que :
- La génération automatique d’une vidéo à partir d’une simple description et/ou à partir d’une image. L’interface d’administration d’OpenAI, bien que très puissante, n’a jamais été forte pour enrichir l’expérience utilisateur et il est dommage qu’elle ne propose pas les meilleurs prompts GPT accessibles en quelques clics.
- La production de vidéos adaptées à la résolution d’écran de l’utilisateur avec des vidéos de différentes tailles, allant d’une résolution large de 1920 sur 1080 pixels à une résolution de 1080 sur 1920 pixels.
- La génération de vidéos ultra réalistes.
- L’Édition d’un prompt d’une vidéo déjà produite.
- Sora AI devrait être en mesure de prolonger la durée d’une vidéo déjà existante, ce qui devrait s’avérer particulièrement utile dans le domaine du cinéma par exemple.
- La mise en scène complexe avec différents personnages par exemple.
- Des vidéos ultra détaillées d’une minute maximum.
- La production d’une vidéo de cinq secondes ne prend que quelques minutes, d’après Mira Murati.
La chaîne Youtube AI Foundations (182 000 abonnés) présente quelques-unes des principales fonctionnalités de cet outil dans la vidéo ci-dessous :
Il est bon de rappeler que cet outil n’est pas disponible et que seul un petit groupe d’initiés a déjà pu tester l’outil et l’ensemble de ses fonctionnalités.
On peut déjà se faire une petite idée de la qualité des vidéos générées par Sora AI à partir des vidéos démonstratives publiées sur Internet, comme la vidéo présentant le nouvel an chinois pour l’année du dragon (2024) :
This is wild.
OpenAI just dropped Sora that generate AI video just from text.
The Videos look insane.
1. Chinese New Year Dragon pic.twitter.com/XwvdWvvXRw
— Min Choi (@minchoi) February 15, 2024
Sora AI n’est pas la seule application sur le marché spécialisée dans la génération automatique de vidéos et d’autres outils IA existent sur le marché :
Gen-2 (Runway AI) permet de transformer un texte, une image ou une piste audio en une vidéo ultra détaillée.
L’outil utilise la technologie Stable Diffusion pour la création des vidéos alors que Sora AI se base sur DALL-E. Chaque vidéo est limitée à seulement 4 secondes, contre 60 secondes maximum pour Sora AI.
Les premiers résultats s’annoncent très prometteurs, mais l’outil souffre encore de problèmes majeurs, comme son concurrent Sora AI, tels que la déformation des objets lors du mouvement de la caméra par exemple.
Une autre version de cet outil, Gen-3 Runway, a été déployée le 1er juillet 2024 en version alpha et elle est accessible uniquement pour les utilisateurs professionnels (abonnés).
Beaucoup plus impressionnante, cette version offre une meilleure résolution et certains problèmes reprochés à sa version précédente ont déjà été corrigés. On se rapproche un peu plus des performances graphiques de Sora AI.
Voici un petit aperçu de cette version et de ses capacités :
Un autre outil, Dream Machine par Luma AI, offre des fonctionnalités similaires.
Conçu à la base pour donner vie à des memes, l’outil permet de générer des vidéos de haute qualité de courte durée (5 secondes) en uploadant une image et/ou à partir d’un texte.
Mais comme les outils concurrents, cette solution souffre encore de problèmes majeurs (déformation anormale des objets ou êtres vivants, manque de réalisme lors du mouvement de la caméra). La durée très limitée des vidéos constitue également un frein pour son développement. Vous pouvez découvrir un aperçu de cet outil dans le tweet ci-dessous :
Introducing Dream Machine – a next generation video model for creating high quality, realistic shots from text instructions and images using AI. It’s available to everyone today! Try for free here https://t.co/rBVWU50kTc #LumaDreamMachine pic.twitter.com/Ypmacd8E9z
— Luma AI (@LumaLabsAI) June 12, 2024
La sortie très médiatisée de Kling, une IA générative de vidéos lancée par Kuaishou (une entreprise chinoise) devrait donner du fil à retordre à OpenAI.
L’outil est non seulement capable de générer des vidéos d’une durée maximale de deux minutes, contre seulement une minute pour Sora, mais les premiers tests dévoilent que cette solution est en mesure de produire des vidéos de qualité cinématographique avec une résolution de 1080 pixels.
Pour en savoir plus :