Google Bard är nu Gemini – vad innebär detta för AI-marknaden?

Varför oss?

Från och med idag kan användare interagera med Gemini online eller via Google Play och App Store på över 40 språk. Basversionen av chatboten använder modellen Gemini Pro 1.0.

“Vårt uppdrag med Bard har alltid varit att ge dig direkt tillgång till våra AI-modeller, och Gemini representerar vår mest kapabla grupp av modeller. För att återspegla detta kommer Bard nu helt enkelt att kallas Gemini”, säger Google i sitt blogginlägg om tillkännagivandet.

Samtidigt tillkännagav Google lanseringen av Gemini Advanced, en uppgraderad version av chatboten som är tillgänglig via Google One Premium Plan (20 USD per månad), som har tillgång till Ultra 1.0.

Modellen är utformad för att prestera bättre på mycket komplexa uppgifter som kodning, logiskt resonemang och att följa instruktioner samtidigt som den stöder längre konversationer.

Huvudpunkter om Google Bards senaste uppdatering

  • Google döper om sin Bard-chattbot till Gemini och lanserar Gemini Ultra, den mest kraftfulla stora språkmodellen (LLM) hittills.
  • Gemini stöder över 40 språk och integreras nära med Googles ekosystem av produkter.
  • Gemini Advanced ser ut att utmärka sig i uppgifter som kodning och resonemang och stöder text-, röst- och bildinmatning.
  • Detta gör Gemini till Googles flaggskeppsprodukt inom AI, och konkurrensen mellan Google och OpenAI-Microsoft intensifieras.

Vad innebär Bards rebranding och Gemini Advanced lansering för AI-marknaden?

Genom att byta namn från Bard till Gemini försöker Google positionera Gemini-familjen av LLM:er som sin flaggskeppsprodukt för multimodal AI. Den nyligen lanserade Gemini stöder en rad olika inmatningar, inklusive text, röst och bilder. Tack vare Googles text-till-bild-modell Imagen 2 kan den även generera bilder.

En av de främsta anledningarna till detta är att multimodalitet håller på att bli en nödvändighet i konkurrensen om LLM. Vi har ju redan sett leverantörer som OpenAI och Microsoft införliva multimodalitet i sina produktportföljer.

OpenAI lade till exempel till en integration med text-till-bild-modellen DALL-E 3 och möjligheten att stödja röstinmatning i slutet av förra året, och så sent som igår meddelade Microsoft att man lägger till möjligheten att skapa och redigera bilder med Copilot och lanserar en ny modell som heter Deucalion.

Introduktion av Gemini Advanced

Men den kanske mest betydande förändringen på marknaden just nu är Gemini Advanced, som inte bara ger tillgång till Googles kraftfulla Ultra 1.0-modell utan också ger tillgång till 2 TB lagringsutrymme i molnet.

Dessutom säger organisationen att Premium-prenumeranter kan använda Gemini via Gmail, Docs, Slides och Sheets och få tillgång till data som ingår i dessa appar.

När man beaktar detta blir Gemini Advanced, med sin tillgång till en kraftfullare multimodal AI-modell och djup integration med Googles produktsystem, till samma pris som Plusversionen av ChatGPT, en betydligt mer konkurrenskraftig produkt jämfört med lösningar från OpenAI och Microsoft.

Naturligtvis har Microsoft fortfarande ett mycket konkurrenskraftigt erbjudande i sin egen rätt – inte bara med Bing Chat som använder GPT-4, utan med Copilot som integreras med Office 365-appar som Word, PowerPoint, Excel, Teams och Power. På samma sätt har OpenAI fortfarande tid på sig att släppa den efterlängtade GPT-5.

Är Gemini Advanced bättre än ChatGPT?

Baserat på den information vi har tillgänglig, visar Gemini Advanced några imponerande prestanda, som till och med överträffar ChatGPT, mer specifikt GPT-4-versionen, inom vissa områden.

Framför allt visar Googles forskning att Ultra 1.0-modellen de använder är den första LLM (storskalig språkmodell) som överträffar mänskliga experter i det omfattande fleruppgiftstestet för språkförståelse (MMLU) med ett resultat på 90%. Till jämförelse låg GPT-4:s resultat på samma test vid 86,5%.

Googles forskning rapporterar också att Ultra uppnår toppmoderna resultat i 30 av 32 uppmätta riktmärken, inklusive populära riktmärken för text och resonemang, riktmärken för bildförståelse, taligenkänning och riktmärken för talöversättning.

Med detta sagt, medan Gemini Ultra presterar på en liknande nivå som GPT-4, överträffar den inte det helt.

Ethan Mollick, docent vid Wharton School vid University of Pennsylvania som har experimenterat med modellen i sex veckor, noterade i ett blogginlägg att “Gemini Advanced är helt klart en GPT-4-klassmodell“, men noterade också att den “inte uppenbart överträffar GPT-4 i jämförelserna”.

När det gäller skillnader hävdade Mollick att “GPT-4 är mycket mer sofistikerad när det gäller att använda kod och klarar ett antal svåra verbala uppgifter bättre”, medan “Gemini är bättre på förklaringar och gör ett bra jobb med att integrera bilder och sökningar”.

I vilket fall som helst är det tydligt att klyftan mellan OpenAI och Googles modeller har minskat till ett minimum med ett genomförbart alternativ som stöds av rätt produktekosystem för att utmana det monolitiska OpenAI-Microsoft-partnerskapet, som nyligen utlöste en undersökning från Europeiska kommissionen.

Slutsatsen om Google Bards rebranding

Marknaden för LLM har precis blivit mycket mer intressant. Med Bards övergång till Gemini och Gemini Advanced, som går huvud mot huvud med ChatGPT Plus, intensifieras konkurrensen mellan Google och OpenAI-Microsoft avsevärt.

Om det är något företag som kan konkurrera ut OpenAI som den dominerande leverantören på marknaden så är det Google, bara genom kraften i sitt erfarna DeepMind-team och den mängd data som samlats in från produkter som Google Search och YouTube.

Men det är fortfarande för tidigt att säga att GPT-4 har besegrats.

Tim Keary
Technology Specialist
Tim Keary
Teknikexpert

Sedan januari 2017 har Tim Keary varit en oberoende teknikskribent och reporter som bevakar företagsteknik och cybersäkerhet.