Google Gemini (Gemini AI)

Varför oss?

Lär dig om Google Gemini, utformad av DeepMind, och hur modellen kan bearbeta text, bilder, kod och ljud som också ersatte PaLM 2 i december 2023.

Vad är Google Gemini?

Google Gemini är en integrerad svit av stora språkmodeller (LLM) som Google DeepMind från början utformade för att vara multimodal. Den integrerade sviten kan bearbeta text, bilder, kod och ljud via ett enda användargränssnitt (UI).

I december 2023 ersatte Gemini PaLM 2, den LLM som drev Google Bard. I februari 2024 meddelade Google att Bard från och med nu kommer att kallas Gemini.

Gratis och betalda prenumerationsmodeller

Desktop-användare kan komma åt gratisversionen av Gemini via en webbläsare. Mobilanvändare har också möjlighet att använda gratisversionen genom att installera Gemini-appen på Android-enheter eller Google-appen på iOS-enheter.

En mer avancerad version av Gemini är tillgänglig via en premium-prenumerationsmodell. Själva prenumerationsmodellen kallas Google One AI Premium. Det är en ny prenumerationsnivå som verkar vara en förgrening av företagets befintliga molnlagringstjänst Google One.

Google One AI Premium-abonnemanget för Gemini Advanced kostar för närvarande 19,99 USD/månad. Den levereras med en två månaders kostnadsfri testperiod och har ett alternativ för årlig fakturering som ger rabatt.

Googles ekosystem för Gemini

Enligt Sundar Pichai, VD för Google och Alphabet, “kommer Gemini att stödja ett helt ekosystem – från de produkter som miljarder människor använder varje dag, till de API:er och plattformar som hjälper utvecklare och företag att förnya sig.”

För att återspegla denna idé omprofilerar och integrerar Google många av företagets andra AI-fokuserade produkter och tjänster. Framöver kommer Duet AI att kallas Gemini for Workspace och Gemini Advanced kommer att integreras med andra produktivitetstjänster från Google, inklusive Gmail, Docs, Sheets, Slides och Meet.

Gemini AI-modeller

Zoubin Ghahramani, vice VD för Google DeepMind, förutspådde ursprungligen att Gemini skulle finnas i samma fyra storlekar som PaLM 2: Gecko, Otter, Bison och Unicorn.

Zoubin Ghahramani, vice VD för Google DeepMind, förutspådde ursprungligen att Gemini skulle finnas i samma fyra storlekar som PaLM 2: Gecko, Otter, Bison och Unicorn.

  • Gecko förväntades vara lätt och idealisk för användning på mobila enheter.
  • Otter förväntades vara lämplig för ett brett spektrum av unimodala uppgifter.
  • Bison förväntades vara lämplig för ett begränsat antal multimodala uppgifter.
  • Unicorn skulle vara lämplig för ett brett spektrum av multimodala uppgifter.

Idag verkar det nu troligt att Gemini endast kommer att finnas i tre storlekar: Gemini Nano för mobiler, Gemini Pro för webbläsare/desktop och Gemini Advanced (även kallad Gemini Ultra) för betalande abonnenter.

Så fungerar Gemini

Gemini AI-modeller ryktas använda Google Pathways-arkitekturen. I denna typ av AI-arkitektur får en serie modulära maskininlärningsmodeller (ML) inledningsvis lära sig att utföra en specifik uppgift. När modulerna har tränats kopplas de samman till ett nätverk.

De nätverksanslutna modulerna kan arbeta självständigt eller tillsammans för att generera olika typer av utdata. På baksidan omvandlar kodare olika typer av data till ett gemensamt språk, och avkodare genererar utdata i olika modaliteter baserat på de kodade inmatningarna och den aktuella uppgiften.

Google har bekräftat att modellerna är snabbare när de körs på Googles Tensor Processing Units (TPU:er).

Ett användarvänligt gränssnitt döljer komplexiteten i Gemini-arkitekturen och gör det möjligt för personer med olika kunskapsnivåer att använda Gemini-modeller för generativa AI-ändamål.

Hur Gemini AI är tränad

Gemini LLM-modellerna påstås ha tränats med en kombination av följande tekniker:

  • Övervakad inlärning: Gemini AI-moduler tränades för att förutsäga utdata för ny data genom att använda mönster lärt från märkta träningsdata.
  • Oövervakad inlärning: Gemini AI-moduler utbildades för att självständigt upptäcka mönster, strukturer eller relationer inom data utan behov av märkta exempel.
  • Förstärkningsinlärning: Gemini AI-moduler förbättrade sina beslutsstrategier upprepade gånger genom en trial and error-process som lärde modulerna att maximera belöningar och minimera bestraffningar.

Vissa branschexperter har spekulerat i att Google förlitade sig starkt på förstärkningsinlärning med mänsklig feedback (RLHF) för att träna Gemini-moduler på Cloud TPU v5e-chips. Enligt Google har TPU:er fem gånger mer beräkningskraft än de chips som användes för att träna Chat GPT.

Än så länge har Google inte släppt någon detaljerad information om de datamängder som Gemini AI-modellerna tränades på. Det är dock troligt att Googles ingenjörer använde LangChain-ramverket och återanvände data som de använde för att träna PaLM 2.

Om så är fallet skulle Gemini foundation-modellerna initialt ha tränats på data från webbdokument, böcker, kod, bilder, ljud och video. Det återstår att se om detta tillvägagångssätt kommer att vara lika effektivt som att träna en grundmodell för ett läge och sedan lägga till andra lägen iterativt. (Båda tillvägagångssätten skulle stödja Googles påstående att Gemini modeller är inbyggda multimodala).

Hur Google Gemini fick sitt namn

Vissa medier har rapporterat att Gemini står för “Generalized Multimodal Intelligence Network Interface”, men den informationen har inte kunnat bekräftas.

Enligt Google Bard är det mer troligt att Googles utvecklare namngav den integrerade LLM-sviten efter stjärnbilden Gemini och den antika grekiska myten om Castor och Pollux som inspirerade stjärntecknet. Google Gemini höll med och påpekade att detta stämmer överens med Googles historia av att använda astronomiska teman i produktnamn.

Relaterade termer

Margaret Rouse
Technology expert
Margaret Rouse
Teknikexpert

Margaret Rouse är en prisbelönt teknisk skribent och lärare som är känd för sin förmåga att förklara komplexa tekniska ämnen för en icke-teknisk affärspublik. Under de senaste tjugo åren har hennes förklaringar publicerats på TechTargets webbplatser och hon har citerats som en auktoritet i artiklar av New York Times, Time Magazine, USA Today, ZDNet, PC Magazine och Discovery Magazine.Margarets idé om en rolig dag är att hjälpa IT- och affärsproffs att lära sig tala varandras högt specialiserade språk. Om du har ett förslag på en ny definition eller hur man kan förbättra en teknisk förklaring, vänligen maila Margaret eller kontakta…