Que signifie DALL-E ?
DALL-E est un système d’intelligence artificielle (IA) créé par OpenAI qui peut générer des images réalistes à partir de descriptions textuelles. Le nom DALL-E est un mélange de Salvador Dali, le célèbre artiste, et du film WALL-E de Pixar.
OpenAI a offciellement annoncé DALL-E en janvier 2021. Le système utilise une combinaison de deux modèles précédents pour produire des images réalistes : GPT-3 et les réseaux génératifs antagonistes (GAN)
Suite au succès initial de DALL-E, OpenAI a annoncé son successeur, DALL-E 2, en avril 2022. DALL-E 2 étend les capacités du système original en pouvant créer des images les plus réalistes et incorporer différents styles qui étaient auparavant impossibles.
Techopedia explique DALL-E
DALL-E a été le premier système alimenté par l’IA à mettre en evidence les possibilités de la fonctionnalité texte-vers-image. Les utilisateurs peuvent fournir des phrases courtes que DALL-E comprendra. Il créera ensuite des images représentant la requête. DALL-E intègre egalement un mécanisme d’évaluation pour déterminer si l’image finale est précise.
Le mécanisme de DALL-E combine des éléments de traitement du langage naturel, d’apprentissage automatique et de vision par ordinateur. Cela signifie que les images que DALL-E est capable de produire peuvent être abstraites et impossibles dans le monde réel. Par exemple, un utilisateur pourrait demander à DALL-E de créer une image d’un renard avec trois mains lisant un livre Harry Potter, et il s’exécutera.
Étant donné les possibilités incroyables offertes par DALL-E, le système a rapidement attiré l’attention des médias grand public et des médias sociaux. Cette attention a été à la fois positive et négative en raison de sa capacité perturbatrice au sein d’industries telles que la publicité, l’art et le divertissement.
Comment la technologie DALL-E fonctionne
Les mécanismes derrière le système de DALL-E sont très complexes et difficiles à comprendre pour les non-spécialistes. Cependant, DALL-E suit quatre étapes importantes lors de la production d’images :
- Prétraitement : DALL-E prend les indications textuelles fournies par les utilisateurs et les convertit en vecteurs. Il utilise ensuite un modèle linguistique (par exemple, GPT-3) pour comprendre ce que l’utilisateur souhaite accomplir.
- Encodage : Les vecteurs créés lors de l’étape de prétraitement sont utilisés pour créer une image qui correspond précisément à l’indication textuelle fournie par l’utilisateur.
- Décodage : DALL-E affinera l’image plusieurs fois pour assurer le réalisme lors de la phase de décodage. Ensuite, DALL-E ‘évaluera’ le résultat final à travers le réseau de discrimination – si des changements supplémentaires sont nécessaires, le système facilitera des affinements supplémentaires.
- Sortie : Une fois que tous les affinements sont terminés, l’image finalisée est présentée à l’utilisateur en tant que sortie.
Avec DALL-E 2, ce processus a été amélioré pour que les sorties correspondent plus précisément aux entrées. De plus, DALL-E 2 peut fournir une qualité d’image beaucoup plus élevée que le système original ne le pouvait.
Application potentielle de DALL-E
Les applications potentielles de DALL-E sont infinies et s’appliqueront à de nombreux domaines. Voici quelques exemples plus courants :
- Publicité : Les annonceurs peuvent utiliser DALL-E pour créer des images réalistes des produits qu’ils souhaitent vendre. Cela réduira considérablement les coûts d’entreprise, car les besoins en photographie et en édition seront considérablement réduits.
- Divertissement : DALL-E pourrait remodeler complètement l’industrie du divertissement, que ce soit pour les films, les émissions de télévision ou les jeux vidéo. Les développeurs de franchises médiatiques pourraient utiliser DALL-E pour conceptualiser des personnages, des niveaux, des arrière-plans ou tout autre élément du processus de conception, supprimant ainsi le besoin de payer des experts dans ce domaine.
- Art : Les sorties de DALL-E pourraient théoriquement créer une toute nouvelle catégorie dans le monde de l’art – l’art généré par l’IA. Cela offrirait probablement d’innombrables façons pour les utilisateurs de monétiser les œuvres d’art créées.
- Écoles : Les enseignants pourraient utiliser DALL-E pour fournir des supports visuels afin d’améliorer les capacités d’apprentissage de leurs élèves. Cela pourrait être particulièrement utile si l’enseignant n’est pas compétent en dessin/peinture mais souhaite toujours utiliser ces supports visuels en classe.
Bien que les avantages potentiels de DALL-E soient illimités. De nombreuses préoccupations éthiques ont été soulevées concernant cette technologie. La préoccupation la plus importante concerne les « deepfakes » – des images ou des vidéos créées par des systèmes d’IA sans fondement dans le monde réel.
La montée en puissance des deepfakes est une préoccupation réelle à l’échelle mondiale, car ils pourraient avoir des répercussions étendues. Par exemple, quelqu’un pourrait utiliser un système d’IA comme DALL-E pour créer une image hyperréaliste d’un homme politique dans une situation compromettante. Les médias pourraient ensuite partager cette image, endommageant la réputation du politique.
Il existe également des préoccupations concernant les droits de propriété liés aux sorties de DALL-E. Qui détient ces images – est-ce l’utilisateur qui fournit l’indication textuelle, ou est-ce DALL-E (OpenAI) ? Il n’y a pas de réponse claire à cette question pour le moment, ce qui soulève des questions concernant les problèmes de droits d’auteur et de propriété intellectuelle.