DALL-E

Transparenz

Was ist DALL-E?

DALL-E ist ein von OpenAI entwickeltes System auf Basis künstlicher Intelligenz (KI) zur Erzeugung realistischer Bilder anhand von Textprompts.

Die Bezeichnung DALL-E ist eine Kombination aus dem Namen des berühmten Künstlers Salvador Dali und dem Film WALL-E von Pixar.

Die offizielle Ankündigung von DALL-E durch OpenAI erfolgte im Januar 2021. Zur Generierung realistischer Bilder setzt das System zwei frühere Modelle ein – GPT-3 und Generative Adversarial Networks (GANs).

Nach dem anfänglichen Erfolg von DALL-E gab OpenAI im April 2022 seinen Nachfolger, DALL-E 2, bekannt. DALL-E 2 baut auf den Fähigkeiten der ursprünglichen Lösung auf und kann realistischere Bilder und verschiedene Stile erstellen, die zuvor unmöglich waren.

DALL-E einfach erklärt

DALL-E war das erste KI-gesteuerte System, das die Möglichkeiten der Text-zu-Bild-Funktionalität aufzeigte. Anhand kurzer Phrasen, die DALL-E versteht, kann man Bilder entsprechend dem Prompt generieren.

DALL-E verfügt zudem über einen Bewertungsmechanismus zur Feststellung, ob das endgültige Bild korrekt ist.

Die Funktionsweise von DALL-E verbindet Elemente der Verarbeitung natürlicher Sprache, des maschinellen Lernens und der Computer Vision. Dies bedeutet, dass die von DALL-E erzeugten Bilder abstrakt und in der realen Welt unmöglich sein können.

So kann man z. B. DALL-E auffordern, ein Bild von einem Fuchs mit drei Händen zu erstellen, der ein Buch über Harry Potter liest, woraufhin DALL-E dem Wunsch sofort nachkommt.

Angesichts der enormen Möglichkeiten, die DALL-E bietet, hat das System schnell die Aufmerksamkeit der Mainstream-Medien und der sozialen Netzwerke auf sich gezogen.

Diese Resonanz war sowohl positiv als auch negativ, da es in Branchen wie Werbung, Kunst und Unterhaltung für Unruhe sorgte.

Wie funktioniert die Technologie von DALL-E?

Das Funktionsprinzip von DALL-E ist sehr komplex und für Laien schwer zu verstehen. DALL-E folgt jedoch vier wichtigen Schritten bei der Produktion von Bildern:

  • Vorverarbeitung: DALL-E wandelt die vom Benutzer eingegebenen Textprompts in Vektoren um. Anschließend kommt ein Sprachmodell (z. B. GPT-3) zum Einsatz, um die vom Nutzer gestellten Aufgaben zu verstehen.
  • Kodierung: Die in der Vorverarbeitungsphase erstellten Vektoren werden zur Generierung von Bildern verwendet, die genau der vom Benutzer eingegebenen Prompts entsprechen.
  • Dekodierung: DALL-E optimiert das Bild mehrmals, um in der Dekodierungsphase ein realistisches Ergebnis zu erzielen. Anschließend „bewertet“ DALL-E das Endresultat mit Hilfe des Diskriminatorennetzwerks – sind weitere Änderungen erforderlich, erleichtert das System zusätzliche Verfeinerungen.
  • Ausgabe: Sobald alle Korrekturen abgeschlossen sind, wird das fertige Bild dem Benutzer als Ausgabe präsentiert.

Mit DALL-E 2 wurde dieser Prozess verbessert, so dass die Ausgaben genauer mit den Eingaben übereinstimmen.

Außerdem kann DALL-E 2 eine viel höhere Bildqualität liefern als das frühere System.

Potenzielle Anwendungen von DALL-E

Die möglichen Anwendungen von DALL-E sind endlos und können in vielen Bereichen eingesetzt werden.

Hier sind ein paar davon:

  • Werbung: Werbefachleute können mit DALL-E realistische Bilder der Produkte erstellen. Dies kann die Geschäftskosten erheblich senken, da der Aufwand für Fotografie und Bearbeitung drastisch reduziert wird.
  • Unterhaltung: DALL-E könnte die Entertainment-Industrie völlig umgestalten, egal ob es sich um Filme, Fernsehsendungen oder Videospiele handelt. Die Entwickler von Medien-Franchises könnten DALL-E zur Konzeption von Spielfiguren, Levels, Hintergründen oder jedem anderen Element des Designprozesses verwenden – und müssten nicht mehr für Experten in diesem Bereich bezahlen.
  • Kunst: Die Ergebnisse von DALL-E könnten theoretisch einen ganz neuen Bereich der Kunstwelt schaffen – KI-Kunstwerke. Dies würde wahrscheinlich zahllose Möglichkeiten bieten, mit denen man die geschaffenen Werke zu Geld machen könnte.
  • Schulen: Lehrer könnten DALL-E als visuelles Hilfsmittel nutzen, um die Lernfähigkeit ihrer Schüler zu verbessern. Besonders geeignet ist dies, wenn die Lehrkraft nicht zeichnen/malen kann, aber dennoch diese visuellen Werkzeuge im Klassenzimmer verwenden möchte.

Obwohl die möglichen Vorteile von DALL-E enorm sind, wurden viele ethische Bedenken bezüglich dieser Technologie geäußert.

Die größte Sorge gilt den „Deepfakes“ – von KI-Systemen erstellte Bilder oder Videos, die keine Grundlage in der realen Welt haben.

Das Aufkommen von Deepfakes ist für die ganze Welt besorgniserregend. So könnte beispielsweise jemand ein KI-System wie DALL-E verwenden, um ein fotorealistisches Bild eines Politikers in einer kompromittierenden Situation zu erstellen.

Die Medien könnten dieses Bild dann verbreiten und so den Ruf des Abgeordneten schädigen.

Außerdem gibt es Bedenken hinsichtlich der Eigentumsrechte an den Ausgaben von DALL-E. Wem gehören diese Bilder – dem Benutzer, der den Textprompt eingibt, oder DALL-E (OpenAI)?

Darauf gibt es derzeit keine eindeutige Antwort, was Fragen bezüglich des Urheberrechts und der Rechte am geistigen Eigentum aufwirft.

Verwandte Begriffe

Margaret Rouse
Redaktion
Margaret Rouse
Redaktion

Margaret Rouse ist eine preisgekrönte technische Autorin und Dozentin. Sie ist für ihre Fähigkeit bekannt, komplexe technische Themen simpel und nachvollziehbar zu erklären. In den letzten zwanzig Jahren sind ihre Erklärungen auf TechTarget-Websites erschienen und sie wurde in Artikeln der New York Times, des Time Magazine, USA Today, ZDNet, PC Magazine und Discovery Magazine als Quelle und Expertin zitiert. Wenn Sie einen Vorschlag für eine neue Definition haben oder eine technische Erklärung verbessern möchten, schicken Sie einfach Margaret eine E-Mail oder kontaktieren Sie sie auf LinkedIn oder Twitter.