Google esitteli huipputeknisen tekstistä videoksi -tekoälymallinsa, Veon, Google I/O -tapahtumassa toukokuussa 2024. Malli pystyy tuottamaan yli 60 sekunnin pituisia 1080p-videoleikkeitä yli 100 elokuvallisella tyylillä, mukaan lukien fotorealismi, surrealismi ja animaatio.
Veo on kokeiltavissa VideoFX-työkalun avulla, ja se kuuluu generatiivisen tekoälyn tekstistä videoksi -mallien kasvavaan kategoriaan, joka pyrkii tarjoamaan videotuotantovalmiuksia epäteknisille käyttäjille ja taiteilijoille.
Alustan ensimmäiset esimerkit ovat toistaiseksi olleet vaikuttavia. Ne tarjoavat varteenotettavan haastajan OpenAI:n videogeneraattorimalli Soralle, joka julkistettiin tämän vuoden alussa huomattavan hypen saattelemana.
Tässä artikkelissa esittelemme joitakin parhaita Google Veolla tehtyjä videoita, joita olemme tähän mennessä nähneet.
6 mahtavaa tekoälyllä luotua videota, jotka on tehty Google Veolla
1. Veo
Google DeepMind julkaisi Veo-innostuksen vauhdittamiseksi lyhyen videon, joka kuvaa neonvalaistua kaupunkia. Video alkaa, kun kamera panoroi kaupungin horisontin yli ennen katutasolle sukeltamista ja siellä kulkevan auton seuraamista.
Videon yksityiskohdat ovat uskomattomia, kaduilla kulkevan auton liikkeestä aina tien märkään ulkonäköön ja neonvalojen reunaan tarttuvaan sumuun.
Ensimmäisellä katselukerralla ainoa luonnollinen kohta, jonka huomasimme, oli tunnelin hankala siirtyminen yöstä päivään. Tästä huolimatta Hongkongin kuvaus päivänvalossa vaikutti erittäin realistiselta, vaikka auton liikkeen ja tiemerkintöjen liikkeen välillä olikin epäjohdonmukaisuutta.
Introducing Veo: our most capable generative video model. 🎥
It can create high-quality, 1080p clips that can go beyond 60 seconds.
From photorealism to surrealism and animation, it can tackle a range of cinematic styles. 🧵 #GoogleIO pic.twitter.com/6zEuYRAHpH
— Google DeepMind (@GoogleDeepMind) May 14, 2024
Videon luomiseen käytetty kehote:
“A fast-tracking shot through a bustling dystopian sprawl with bright neon signs, flying cars and mist, night, lens flare, volumetric lighting.
A neon hologram of a car driving at top speed, speed of light, cinematic, incredible details, volumetric lighting.
The cars leave the tunnel, back into the real-world city Hong Kong.”
Suomeksi:
“Pikakuvaus läpi vilkkaan dystooppisen asutuksen, jossa on kirkkaita neonkylttejä, lentäviä autoja ja sumua, yö, linssiheijastus, volumetrinen valaistus.
Neonhologrammi autosta, joka ajaa huippunopeutta, valonnopeudella, elokuvamainen, uskomattomat yksityiskohdat, volumetrinen valaistus.
Autot poistuvat tunnelista, takaisin reaalimaailman kaupunkiin Hongkongiin.”
2. Spotted Jellyfish
Seuraava esimerkkimme on video meressä uivasta meduusasta. Vaikka kyseessä on vain lyhyt pätkä, vaikuttaa kaikki meduusan liikkeestä vedessä veden aaltoiluun aidolta ja luonnolliselta.
Ensi silmäyksellä on vaikea tunnistaa, että tätä videota ei ole kuvattu perinteisellä kameralla, sillä meduusan täplät ja rakenne näyttävät niin eläviltä. Se on myös luotu yksinkertaisella tekstikehotuksella.
✍️ Prompt: “Many spotted jellyfish pulsating under water. Their bodies are transparent and glowing in deep ocean.” pic.twitter.com/y9SmNd8NK0
— Google DeepMind (@GoogleDeepMind) May 14, 2024
Videon luomiseen käytetty kehote:
“Many spotted jellyfish pulsating under water. Their bodies are transparent and glowing in the deep ocean.”
Suomeksi:
“Monet täplikkäät meduusat sykkivät veden alla. Niiden ruumiit ovat läpinäkyviä ja hehkuvat syvällä meressä.”
3. Kultainen noutaja
Toisessa DeepMindin julkaisemassa esimerkissä kultainen noutaja kulkee vuoristopolulla. Tämä video erottuu muiden joukosta sen vuoksi, kuinka aidolta koira näyttää, erityisesti sen kävelyn ja hännän heiluttamisen osalta (vaikka turkin liike näyttääkin luonnottomalta takajalkojen ympärillä).
Videon tausta näyttää myös lähes erottamattomalta todellisesta kuvamateriaalista, ja polku näyttää laskevan vuorta alaspäin, aivan kuten aidossa ympäristössä. Kaiken kaikkiaan mikään ei näytä väärin sijoitellulta tai selkeältä deepfakelta, joten kuva voisi helposti esiintyä oikeana videona.
✍️ Prompt: “A golden retriever walks on a winding mountain trail, its tail wagging excitedly as it explores the sights and scents of the wilderness.” pic.twitter.com/CeJ5VKfAaM
— Google DeepMind (@GoogleDeepMind) May 14, 2024
Videon luomiseen käytetty kehote:
“A golden retriever walks on a winding mountain trail, it’s tail wagging excitedly as it explores the sights and scents of the wilderness.”
Suomeksi:
”Kultainen noutaja kävelee kiemurtelevalla vuoristopolulla, ja sen häntä heiluu innoissaan, kun se tutkii erämaan nähtävyyksiä ja tuoksuja.”
4. Nainen kahvilassa
Deepmindin film noir -tyylinen mainosvideo, jossa nainen istuu kahvilassa, kuvaa hienosti ihmistä.
Videolla kuvattu nainen vaikuttaa kasvojensa ilmeiden ja käytöksensä osalta erittäin eläväiseltä. Tästä huolimatta on helppo huomata sormien luonnottomat liikkeet, kun ne tarttuvat hänen pitelemäänsä kirjaan.
Vaikka video on melko lyhyt, voitaisiin sitä helposti käyttää luovan projektin tai elokuvan kuvituskuvana, ja se havainnollistaa tämän teknologian käytön tuomia mahdollisuuksia.
✍️ Prompt: “A woman sitting alone in a dimly lit cafe, a half-finished novel open in front of her. Film noir aesthetic, mysterious atmosphere. Black and white.” pic.twitter.com/vFVXr4Cvxi
— Google DeepMind (@GoogleDeepMind) May 14, 2024
Videon luomiseen käytetty kehote:
“A woman sitting alone in a dimly lit cafe, a half-finished novel open in front of her. Film noir aesthetic, mysterious atmosphere. Black and white.”
Suomeksi:
“Nainen istuu yksin hämärässä kahvilassa, edessään kesken oleva avoin romaani. Film noir -estetiikka, salaperäinen tunnelma. Mustavalkoinen.”
5. Vesililja Timelapse
Yksi erikoisimmista esimerkeistä DeepMindin mainosvideoiden joukossa on lyhyt leike, jossa vesililja avautuu hitaasti. Videolla vesililja avautuu vähitellen ikään kuin se olisi osa ajastettua kuvausta.
Liljan avautumisen liike on erittäin yksityiskohtaista ja vakuuttavaa, vaikka tausta näyttää huomattavan elottomalta ja tummalta.
Tämä esimerkki korostaa, miten Google Veon kaltaisia työkaluja voidaan käyttää paitsi tyypilliseen videosisältöön, myös aikajaksojen luomiseen ja tiettyjen prosessien visuaalisen erittelyn tarjoamiseen.
✍️ Prompt: “Timelapse of a water lily opening, dark background.” pic.twitter.com/t5uLQ89E1Y
— Google DeepMind (@GoogleDeepMind) May 14, 2024
Videon luomiseen käytetty kehote:
“Time-lapse of a water lily opening, dark background.”
Suomeksi:
”Ajastettu kuvaus vesililjan avautumisesta, tumma tausta.”
6. Kebabin grillaaminen
Viimeinen esimerkki on lyhyt leike, jossa näytetään tekoälyn luomia kana-viherpaprikakebabeja grillissä. Yksi tämän klipin keskeisistä aineksista on se, kuinka luonnolliselta tulen ja savun liike näyttää.
Ainoa kritiikkimme on, että kameran kulma ja tarkennus vaikuttavat epäluonnollisilta, joten lopputulos ei näytä kameralla kuvatulta.
✍️ Prompt: “Extreme close-up of chicken and green pepper kebabs grilling on a barbeque with flames. Shallow focus and light smoke. vivid colours.” pic.twitter.com/LDHC8XGyJA
— Google DeepMind (@GoogleDeepMind) May 14, 2024
Videon luomiseen käytetty kehote:
“Extreme close-up of chicken and green pepper kebabs grilling on a barbecue with flames. Shallow focus and light smoke. Vivid colours.”
Suomeksi:
“Äärimmäinen lähikuva kanaa ja vihreää paprikaa sisältävistä kebabeista, jotka grillataan liekehtivässä grillissä. Matala tarkennus ja kevyt savu. Eloisat värit.”.
Yhteenveto
Vuosi 2024 on tekoälyn generoimien videoiden vuosi, ja kaikki suuret toimijat astuvat varmasti areenalle, mikä saa luovan alan tekijät sekä kiinnostumaan että huolestumaan.
Veo on toinen vaikuttava tulokas tekstistä videoksi -markkinoille, ja DeepMindin ensimmäiset mainosvideot osoittavat, että sillä on keskeiset valmiudet laadukkaan videosisällön luontiin.
Tämä uusi toimiala on ollut olemassa vasta muutamia kuukausia, ja odotamme jo nyt innolla, mitä tuleman pitää.