Lær hva DALL-E er og hvordan denne AI-modellen kan hjelpe deg med å lage bilder online. Vi forklarer teknologien bak DALL-E og gir eksempler på bruksområder.
Hva er DALL-E?
DALL-E er et kunstig intelligens (AI) – system utviklet av OpenAI som kan produsere realistiske bilder ut fra tekstmeldinger. Navnet DALL-E er en blanding av den berømte kunstneren Salvador Dali og Pixars WALL-E-film.
OpenAI kunngjorde offisielt DALL-E i januar 2021. Systemet bruker en kombinasjon av to tidligere modeller for å produsere realistiske bilder – GPT-3 og Generative Adversarial Networks (GAN).
Etter DALL-E sin suksess lanserte OpenAI etterfølgeren DALL-E 2 i april 2022.
DALL-E 2 bygger videre på det opprinnelige systemets evner ved å kunne skape mer realistiske bilder og inkorporere ulike stiler som tidligere var umulige.
Techopedia forklarer DALL-E
DALL-E var det første AI-drevne systemet som viste mulighetene med tekst-til-bilde-funksjonalitet. Brukerne kan skrive inn korte setninger som DALL-E forstår, og lage bilder som representerer det som blir sagt. DALL-E har også en evalueringsmekanisme som avgjør om det endelige bildet er korrekt.
DALL-Es mekanisme kombinerer elementer fra naturlig språkbehandling, maskinlæring og datasyn. Det betyr at bildene DALL-E er i stand til å produsere, kan være abstrakte og umulige i den virkelige verden. En bruker kan for eksempel be DALL-E om å lage et bilde av en rev med tre hender som leser en Harry Potter-bok – og den vil raskt gjøre det.
På grunn av de utrolige mulighetene DALL-E gir, har systemet raskt fått oppmerksomhet i mainstream-medier og på ulike sosiale medier. Oppmerksomheten har vært både positiv og negativ på grunn av systemets evne til å forstyrre bransjer som reklame, kunst og underholdning.
Hvordan fungerer DALL-Es teknologi?
Mekanikken bak DALL-Es system er svært kompleks og utfordrende å forstå for ikke-spesialister. DALL-E følger imidlertid fire viktige trinn når den produserer bilder:
- Forbehandling (“preprocessing”): DALL-E tar utgangspunkt i brukernes tekstmeldinger og konverterer dem til vektorer. Deretter bruker den en språkmodell (f.eks. GPT-3) for å forstå hva brukeren ønsker å oppnå.
- Koding (“encoding”): Vektorene som ble opprettet i forbehandlingstrinnet, brukes til å lage et bilde som samsvarer nøyaktig med tekstmeldingen fra brukeren.
- Avkoding (“decoding”): DALL-E finjusterer bildet flere ganger for å sikre realisme i avkodingsfasen. Deretter vil DALL-E “evaluere” det endelige resultatet gjennom diskriminatornettverket – hvis det er behov for flere endringer, vil systemet legge til rette for ytterligere forbedringer.
- Output: Når alle finjusteringer er fullført, presenteres det ferdige bildet for brukeren som et resultat. I DALL-E 2 er denne prosessen forbedret, slik at resultatet stemmer bedre overens med inndataene. Dessuten kan DALL-E 2 gi en mye høyere bildekvalitet enn det opprinnelige systemet.
Mulige bruksområder for DALL-E
De potensielle bruksområdene for DALL-E er nær uendelige og kan brukes på mange områder. Her er noen av de vanligste eksemplene:
- Reklame: Annonsører kan bruke DALL-E til å lage realistiske bilder av produktene de ønsker å selge. Dette vil redusere bedriftens kostnader betraktelig, ettersom behovet for fotografering og redigering reduseres drastisk.
- Underholdning: DALL-E kan endre underholdningsbransjen fullstendig, enten det dreier seg om filmer, TV-serier eller videospill. Utviklerne av mediefranchiser kan bruke DALL-E til å konseptualisere figurer, nivåer, bakgrunner eller andre elementer i designprosessen – og dermed slippe å betale for eksperter på området.
- Kunst: DALL-Es resultater kan i teorien skape en helt ny del av kunstverdenen – AI-kunstverk. Dette vil sannsynligvis gi brukerne utallige muligheter til å tjene penger på de skapte kunstverkene.
- Skoler: Lærere kan bruke DALL-E som visuelt hjelpemiddel for å øke elevenes læringsevne. Dette kan være spesielt nyttig hvis læreren ikke er dyktig til å tegne/male, men likevel ønsker å bruke disse visuelle hjelpemidlene i klasserommet.
Skjønt de mulige fordelene med DALL-E er uten grenser, er det mange etiske betenkeligheter knyttet til denne teknologien.
Den mest fremtredende bekymringen gjelder “deepfakes” – bilder eller videoer som er laget av AI-systemer uten grunnlag i den virkelige verden.
Fremveksten av deepfakes er en reell global bekymring, ettersom de kan få vidtrekkende konsekvenser. Noen kan for eksempel bruke et AI-system som DALL-E til å lage et fotorealistisk bilde av en politiker i en kompromitterende situasjon. Medier kan deretter dele dette bildet og skade politikerens omdømme.
Det er også bekymringer knyttet til eierskapsrettighetene til DALL-Es resultater. Hvem eier disse bildene – er det brukeren som gir tekstmeldingen, eller er det DALL-E (OpenAI)? Det finnes foreløpig ikke noe klart svar på dette, noe som reiser spørsmål om opphavsrett og immaterielle rettigheter.