Google presenterade sin toppmoderna AI-modell för text-till-video, Veo, på Google I/O i maj 2024. Modellen kan generera 1080p-videoklipp på över 60 sekunder i över 100 filmiska stilar, inklusive fotorealism, surrealism och animering.
Veo kan testas via det experimentella verktyget VideoFX och tillhör en framväxande kategori av generativa AI-text-till-videomodeller som syftar till att erbjuda videoproduktionskapacitet till icke-tekniska användare och konstnärer.
Plattformens första exempel har hittills varit imponerande. De utgör en allvarlig konkurrent till OpenAI:s videogenereringsmodell Sora, som presenterades i början av året under stor hype.
I den här artikeln undersöker vi några av de bästa videorna som gjorts med Google Veo som vi har sett hittills.
Viktiga slutsatser om Google Veo
- Google visade upp sin banbrytande AI-modell för text-till-video, Veo, på Google I/O i maj 2024.
- Veo genererar 1080p-videoklipp som är över 60 sekunder långa i mer än 100 filmstilar, inklusive fotorealism och animering.
- Bland de videor som lyfts fram finns en verklighetstrogen fläckig manet som simmar under vattnet, en golden retriever på en bergsstig och en kvinna i film noir-stil på ett café.
- Google och OpenAI fortsätter att tänja på gränserna för generativ AI inom videogenereringssektorn.
6 Imponerande AI-genererade videor gjorda med Google Veo
1. Veo
Som ett led i lanseringen av Veo släppte Google DeepMind en kort video som visar en neonupplyst stad. Videon börjar med att kameran panorerar över stadens silhuett innan den dyker ner till gatunivå och följer en bil som kör på gatorna.
Detaljrikedomen i videon är otrolig, från bilens rörelse genom gatorna till vägens våta utseende och dimman som fångar neonljusens kant.
Vid första visningen var den enda naturliga delen vi lade märke till den besvärliga övergången från natt till dag i tunneln. Med detta sagt framstod skildringen av Hong Kong i dagsljus som mycket realistisk, även med inkonsekvensen mellan bildens rörelse och vägmarkeringarnas rörelse.
Introducing Veo: our most capable generative video model. 🎥
It can create high-quality, 1080p clips that can go beyond 60 seconds.
From photorealism to surrealism and animation, it can tackle a range of cinematic styles. 🧵 #GoogleIO pic.twitter.com/6zEuYRAHpH
— Google DeepMind (@GoogleDeepMind) May 14, 2024
Prompt som användes för att skapa videon (översätt från engelska):
”En snabbspårande tagning genom en livlig dystopisk stadsdel med ljusa neonskyltar, flygande bilar och dimma, natt, linsreflexer, volymetrisk belysning.
En snabbfilmssekvens genom en futuristisk dystopisk stad med ljusa neonskyltar, rymdskepp på himlen, natt, volymetrisk belysning.
Ett neonhologram av en bil som kör i toppfart, ljusets hastighet, filmisk, otroliga detaljer, volymetrisk belysning.
Bilarna lämnar tunneln, tillbaka in i den verkliga staden Hongkong.”
2. Fläckig manet
Vårt nästa exempel är en video av en manet som simmar i havet. Det här är bara ett kort klipp, men allt från manetens rörelse i vattnet till vattnets vågor ser autentiskt och naturligt ut.
Vid en första anblick skulle det vara svårt att identifiera att videon inte är inspelad med en traditionell kamera, eftersom manetens fläckar och textur ser så verklighetstrogna ut. Den skapades också med en enkel textuppmaning.
✍️ Prompt: “Many spotted jellyfish pulsating under water. Their bodies are transparent and glowing in deep ocean.” pic.twitter.com/y9SmNd8NK0
— Google DeepMind (@GoogleDeepMind) May 14, 2024
Prompt som användes för att skapa videon (översätt från engelska):
”Många observerade maneter som pulserar under vattnet. Deras kroppar är genomskinliga och glödande i djuphavet.”
3. Golden Retriever
Ett annat exempel som DeepMind har publicerat visar en golden retrieval som korsar en bergsstig. Den här videon sticker ut bland exemplen på grund av hur verklig hunden ser ut, särskilt med avseende på hur den går och viftar på svansen (även om pälsens rörelse ser onaturlig ut runt bakbenen).
Videobakgrunden ser också ut att vara nästan omöjlig att skilja från verkliga bilder, och stigen ser ut att slutta nedför berget som den skulle göra på en legitim fysisk plats. Sammantaget verkar ingenting vara felplacerat eller märkbart deepfaked, vilket innebär att bilden lätt kan posera som en riktig video.
✍️ Prompt: “A golden retriever walks on a winding mountain trail, its tail wagging excitedly as it explores the sights and scents of the wilderness.” pic.twitter.com/CeJ5VKfAaM
— Google DeepMind (@GoogleDeepMind) May 14, 2024
Prompt som användes för att skapa videon (översätt från engelska):
”En golden retriever går på en slingrande bergsstig och viftar upphetsat på svansen medan den utforskar vildmarkens sevärdheter och dofter.”
4. Kvinnan på kaféet
Deepminds reklamfilm i film noir-stil, som visar en kvinna som sitter på ett café, gör ett bra jobb med att skildra människor.
Kvinnan som avbildas i videon verkar vara extremt verklighetstrogen när det gäller hennes ansiktsuttryck och uppförande. Med detta sagt är det lätt att märka en viss onaturlig rörelse i fingrarna när hon greppar boken hon håller i.
Även om videon är ganska kort kan den lätt användas som B-roll för ett kreativt projekt eller en film och illustrerar de möjligheter som uppstår genom att använda den här tekniken.
✍️ Prompt: “A woman sitting alone in a dimly lit cafe, a half-finished novel open in front of her. Film noir aesthetic, mysterious atmosphere. Black and white.” pic.twitter.com/vFVXr4Cvxi
— Google DeepMind (@GoogleDeepMind) May 14, 2024
Prompt som användes för att skapa videon (översätt från engelska):
”En kvinna sitter ensam i en svagt upplyst bur med en halvfärdig roman uppslagen framför sig. Film noir-estetik, mystisk atmosfär. Svartvitt.”
5. Vattenlilja i timelapse
Ett av de mer unika exemplen bland DeepMinds reklamvideor är ett kort klipp med en näckros som långsamt öppnar sig. I videon öppnar sig näckrosen gradvis som om den vore en del av en timelapse (tidsförkortning).
Rörelsen när näckrosen öppnar sig är extremt detaljerad och övertygande, trots att bakgrunden ser märkbart livlös och mörk ut.
Det här exemplet visar hur verktyg som Google Veo inte bara kan användas för vanligt videoinnehåll utan också för att skapa tidsförlopp och ge en visuell uppdelning av vissa processer.
✍️ Prompt: “Timelapse of a water lily opening, dark background.” pic.twitter.com/t5uLQ89E1Y
— Google DeepMind (@GoogleDeepMind) May 14, 2024
Prompt som användes för att skapa videon (översätt från engelska):
”Timelapse av en näckros som öppnar sig, mörk bakgrund.”
6. Grillning av kebab
Vårt sista exempel är ett kort klipp som visar AI-genererade kebab med kyckling och grön paprika på en grill. Ett av de mest framträdande elementen i det här klippet är hur naturlig eldens och rökens rörelse ser ut.
Vår enda kritik är dock att kamerans vinkel och fokus verkar onaturliga, det vill säga det ser inte ut som om det har spelats in med en kamera.
✍️ Prompt: “Extreme close-up of chicken and green pepper kebabs grilling on a barbeque with flames. Shallow focus and light smoke. vivid colours.” pic.twitter.com/LDHC8XGyJA
— Google DeepMind (@GoogleDeepMind) May 14, 2024
Prompt som användes för att skapa videon (översätt från engelska):
”Extrem närbild på kebab med kyckling och grön paprika som grillas på en grill med lågor. Ytlig fokus och lätt rök. levande färger.”
Slutsatsen om AI-genererade filmer från Google Veo
2024 är året för AI-genererad video, och alla de stora aktörerna ger sig in i leken – något som gör kreatörer både nyfikna och oroliga.
Veo är en annan imponerande aktör på text-till-videomarknaden, och DeepMinds första reklamvideor visar att företaget har de grundläggande funktioner som krävs för att skapa högkvalitativt videoinnehåll.
Vi är fortfarande bara några månader in i den här nya branschen – och vi väntar på att se vad som kommer härnäst.