DALL-E

Hva er DALL-E? 

DALL-E er et kunstig intelligens (AI) – system utviklet av OpenAI som kan produsere realistiske bilder ut fra tekstmeldinger. Navnet DALL-E er en blanding av den berømte kunstneren Salvador Dali og Pixars WALL-E-film.

OpenAI kunngjorde offisielt DALL-E i januar 2021. Systemet bruker en kombinasjon av to tidligere modeller for å produsere realistiske bilder – GPT-3 og Generative Adversarial Networks (GAN).

Etter DALL-E sin suksess lanserte OpenAI etterfølgeren DALL-E 2 i april 2022.
DALL-E 2 bygger videre på det opprinnelige systemets evner ved å kunne skape mer realistiske bilder og inkorporere ulike stiler som tidligere var umulige.

Techopedia forklarer DALL-E

DALL-E var det første AI-drevne systemet som viste mulighetene med tekst-til-bilde-funksjonalitet. Brukerne kan skrive inn korte setninger som DALL-E forstår, og lage bilder som representerer det som blir sagt. DALL-E har også en evalueringsmekanisme som avgjør om det endelige bildet er korrekt.

DALL-Es mekanisme kombinerer elementer fra naturlig språkbehandling, maskinlæring og datasyn. Det betyr at bildene DALL-E er i stand til å produsere, kan være abstrakte og umulige i den virkelige verden. En bruker kan for eksempel be DALL-E om å lage et bilde av en rev med tre hender som leser en Harry Potter-bok – og den vil raskt gjøre det.

På grunn av de utrolige mulighetene DALL-E gir, har systemet raskt fått oppmerksomhet i mainstream-medier og på ulike sosiale medier. Oppmerksomheten har vært både positiv og negativ på grunn av systemets evne til å forstyrre bransjer som reklame, kunst og underholdning.

Hvordan fungerer DALL-Es teknologi?

Mekanikken bak DALL-Es system er svært kompleks og utfordrende å forstå for ikke-spesialister. DALL-E følger imidlertid fire viktige trinn når den produserer bilder:

  • Forbehandling (“preprocessing”): DALL-E tar utgangspunkt i brukernes tekstmeldinger og konverterer dem til vektorer. Deretter bruker den en språkmodell (f.eks. GPT-3) for å forstå hva brukeren ønsker å oppnå. 
  • Koding (“encoding”): Vektorene som ble opprettet i forbehandlingstrinnet, brukes til å lage et bilde som samsvarer nøyaktig med tekstmeldingen fra brukeren. 
  • Avkoding (“decoding”): DALL-E finjusterer bildet flere ganger for å sikre realisme i avkodingsfasen. Deretter vil DALL-E “evaluere” det endelige resultatet gjennom diskriminatornettverket – hvis det er behov for flere endringer, vil systemet legge til rette for ytterligere forbedringer. 
  • Output: Når alle finjusteringer er fullført, presenteres det ferdige bildet for brukeren som et resultat. I DALL-E 2 er denne prosessen forbedret, slik at resultatet stemmer bedre overens med inndataene. Dessuten kan DALL-E 2 gi en mye høyere bildekvalitet enn det opprinnelige systemet.

Mulige bruksområder for DALL-E

De potensielle bruksområdene for DALL-E er nær uendelige og kan brukes på mange områder. Her er noen av de vanligste eksemplene:

  • Reklame: Annonsører kan bruke DALL-E til å lage realistiske bilder av produktene de ønsker å selge. Dette vil redusere bedriftens kostnader betraktelig, ettersom behovet for fotografering og redigering reduseres drastisk.
  • Underholdning: DALL-E kan endre underholdningsbransjen fullstendig, enten det dreier seg om filmer, TV-serier eller videospill. Utviklerne av mediefranchiser kan bruke DALL-E til å konseptualisere figurer, nivåer, bakgrunner eller andre elementer i designprosessen – og dermed slippe å betale for eksperter på området.
  • Kunst: DALL-Es resultater kan i teorien skape en helt ny del av kunstverdenen – AI-kunstverk. Dette vil sannsynligvis gi brukerne utallige muligheter til å tjene penger på de skapte kunstverkene.
  • Skoler: Lærere kan bruke DALL-E som visuelt hjelpemiddel for å øke elevenes læringsevne. Dette kan være spesielt nyttig hvis læreren ikke er dyktig til å tegne/male, men likevel ønsker å bruke disse visuelle hjelpemidlene i klasserommet.

Skjønt de mulige fordelene med DALL-E er uten grenser, er det mange etiske betenkeligheter knyttet til denne teknologien.
Den mest fremtredende bekymringen gjelder “deepfakes” – bilder eller videoer som er laget av AI-systemer uten grunnlag i den virkelige verden.

Fremveksten av deepfakes er en reell global bekymring, ettersom de kan få vidtrekkende konsekvenser. Noen kan for eksempel bruke et AI-system som DALL-E til å lage et fotorealistisk bilde av en politiker i en kompromitterende situasjon. Medier kan deretter dele dette bildet og skade politikerens omdømme.

Det er også bekymringer knyttet til eierskapsrettighetene til DALL-Es resultater. Hvem eier disse bildene – er det brukeren som gir tekstmeldingen, eller er det DALL-E (OpenAI)? Det finnes foreløpig ikke noe klart svar på dette, noe som reiser spørsmål om opphavsrett og immaterielle rettigheter.

 

Relaterte begreper

Tom Sheen

Tom is an editor for Techopedia, ensuring content across the site is accurate, relevant, and timely. He has held a long-term interest in technology and uses that knowledge to provide precise and concise definitions of technical terms. Previous to joining Techopedia, Tom had spent more than a decade as a sports journalist and senior editor at a variety of leading UK national newspapers, including The Sun, the Independent and Daily Mail.