Lär dig om Google Gemini, utformad av DeepMind, och hur modellen kan bearbeta text, bilder, kod och ljud som också ersatte PaLM 2 i december 2023.
Vad är Google Gemini?
Google Gemini är en integrerad svit av stora språkmodeller (LLM) som Google DeepMind från början utformade för att vara multimodal. Den integrerade sviten kan bearbeta text, bilder, kod och ljud via ett enda användargränssnitt (UI).
I december 2023 ersatte Gemini PaLM 2, den LLM som drev Google Bard. I februari 2024 meddelade Google att Bard från och med nu kommer att kallas Gemini.
Gratis och betalda prenumerationsmodeller
Desktop-användare kan komma åt gratisversionen av Gemini via en webbläsare. Mobilanvändare har också möjlighet att använda gratisversionen genom att installera Gemini-appen på Android-enheter eller Google-appen på iOS-enheter.
En mer avancerad version av Gemini är tillgänglig via en premium-prenumerationsmodell. Själva prenumerationsmodellen kallas Google One AI Premium. Det är en ny prenumerationsnivå som verkar vara en förgrening av företagets befintliga molnlagringstjänst Google One.
Google One AI Premium-abonnemanget för Gemini Advanced kostar för närvarande 19,99 USD/månad. Den levereras med en två månaders kostnadsfri testperiod och har ett alternativ för årlig fakturering som ger rabatt.
Googles ekosystem för Gemini
Enligt Sundar Pichai, VD för Google och Alphabet, “kommer Gemini att stödja ett helt ekosystem – från de produkter som miljarder människor använder varje dag, till de API:er och plattformar som hjälper utvecklare och företag att förnya sig.”
För att återspegla denna idé omprofilerar och integrerar Google många av företagets andra AI-fokuserade produkter och tjänster. Framöver kommer Duet AI att kallas Gemini for Workspace och Gemini Advanced kommer att integreras med andra produktivitetstjänster från Google, inklusive Gmail, Docs, Sheets, Slides och Meet.
Gemini AI-modeller
Zoubin Ghahramani, vice VD för Google DeepMind, förutspådde ursprungligen att Gemini skulle finnas i samma fyra storlekar som PaLM 2: Gecko, Otter, Bison och Unicorn.
Zoubin Ghahramani, vice VD för Google DeepMind, förutspådde ursprungligen att Gemini skulle finnas i samma fyra storlekar som PaLM 2: Gecko, Otter, Bison och Unicorn.
- Gecko förväntades vara lätt och idealisk för användning på mobila enheter.
- Otter förväntades vara lämplig för ett brett spektrum av unimodala uppgifter.
- Bison förväntades vara lämplig för ett begränsat antal multimodala uppgifter.
- Unicorn skulle vara lämplig för ett brett spektrum av multimodala uppgifter.
Idag verkar det nu troligt att Gemini endast kommer att finnas i tre storlekar: Gemini Nano för mobiler, Gemini Pro för webbläsare/desktop och Gemini Advanced (även kallad Gemini Ultra) för betalande abonnenter.
Så fungerar Gemini
Gemini AI-modeller ryktas använda Google Pathways-arkitekturen. I denna typ av AI-arkitektur får en serie modulära maskininlärningsmodeller (ML) inledningsvis lära sig att utföra en specifik uppgift. När modulerna har tränats kopplas de samman till ett nätverk.
De nätverksanslutna modulerna kan arbeta självständigt eller tillsammans för att generera olika typer av utdata. På baksidan omvandlar kodare olika typer av data till ett gemensamt språk, och avkodare genererar utdata i olika modaliteter baserat på de kodade inmatningarna och den aktuella uppgiften.
Google har bekräftat att modellerna är snabbare när de körs på Googles Tensor Processing Units (TPU:er).
Ett användarvänligt gränssnitt döljer komplexiteten i Gemini-arkitekturen och gör det möjligt för personer med olika kunskapsnivåer att använda Gemini-modeller för generativa AI-ändamål.
Hur Gemini AI är tränad
Gemini LLM-modellerna påstås ha tränats med en kombination av följande tekniker:
- Övervakad inlärning: Gemini AI-moduler tränades för att förutsäga utdata för ny data genom att använda mönster lärt från märkta träningsdata.
- Oövervakad inlärning: Gemini AI-moduler utbildades för att självständigt upptäcka mönster, strukturer eller relationer inom data utan behov av märkta exempel.
- Förstärkningsinlärning: Gemini AI-moduler förbättrade sina beslutsstrategier upprepade gånger genom en trial and error-process som lärde modulerna att maximera belöningar och minimera bestraffningar.
Vissa branschexperter har spekulerat i att Google förlitade sig starkt på förstärkningsinlärning med mänsklig feedback (RLHF) för att träna Gemini-moduler på Cloud TPU v5e-chips. Enligt Google har TPU:er fem gånger mer beräkningskraft än de chips som användes för att träna Chat GPT.
Än så länge har Google inte släppt någon detaljerad information om de datamängder som Gemini AI-modellerna tränades på. Det är dock troligt att Googles ingenjörer använde LangChain-ramverket och återanvände data som de använde för att träna PaLM 2.
Om så är fallet skulle Gemini foundation-modellerna initialt ha tränats på data från webbdokument, böcker, kod, bilder, ljud och video. Det återstår att se om detta tillvägagångssätt kommer att vara lika effektivt som att träna en grundmodell för ett läge och sedan lägga till andra lägen iterativt. (Båda tillvägagångssätten skulle stödja Googles påstående att Gemini modeller är inbyggda multimodala).
Hur Google Gemini fick sitt namn
Vissa medier har rapporterat att Gemini står för “Generalized Multimodal Intelligence Network Interface”, men den informationen har inte kunnat bekräftas.
Enligt Google Bard är det mer troligt att Googles utvecklare namngav den integrerade LLM-sviten efter stjärnbilden Gemini och den antika grekiska myten om Castor och Pollux som inspirerade stjärntecknet. Google Gemini höll med och påpekade att detta stämmer överens med Googles historia av att använda astronomiska teman i produktnamn.
Referenser
- Supercharge your creativity and productivity (Gemini)
- Gemini Advanced is far more capable at reasoning, following instructions, coding, and creative inspiration. (Gemini)
- Upgrade your personal account to Google One (Google)
- Gemini Apps FAQ (Gemini)
- Duet AI for Developers (Google)
- Gemini: A Family of Highly Capable Multimodal Models (GoogleApis)
- Pixel 8 Pro – the first smartphone with AI built in – is now running Gemini Nano. (Google)
- Does cold weather affect your EV? A guide to driving and charging in winter (EuroNews)
- Get access to Google’s most capable AI model, Ultra 1.0 (Gemini)
- Introducing Pathways: A next-generation AI architecture (Google)
- Cloud Tensor Processing Units (TPUs) (Google)
- Expanding our AI-optimized infrastructure portfolio: Introducing Cloud TPU v5e and announcing A3 GA (Google)
- Building Generative AI applications made easy with Vertex AI PaLM API and LangChain (Google)
- Google DeepMind Gemini (Google)