Googles Gemini AI är ett allvarligt hot mot ChatGPT – här är varför

Viktiga noteringar

Introduktionen av Google Gemini, en uppsättning stora språkmodeller (LLM) som innehåller AlphaGo-inspirerade tekniker, markerar Googles strategiska svar på ChatGPT. Med multimodala funktioner och potentiell tillgång till Googles omfattande egna träningsdata från olika tjänster, syftar Gemini till att utmana ChatGPT:s dominans inom generativ AI. Detta understryker Googles engagemang för AI-innovation och konkurrens på den snabbt växande marknaden för generativ AI, som beräknas vara värd 1,3 biljoner dollar år 2032.

Lanseringen av ChatGPT i november förra året skakade om Google i grunden. Den populära chatboten utgjorde ett sådant hot mot företagets verksamhet att man var tvungen att deklarera en röd kod och började investera i att komma ikapp med det generativa AI-tåget. Denna satsning har inte bara resulterat i lanseringen av Google Bard utan även Gemini.

Vad är Google Gemini?

Gemini är en uppsättning stora språkmodeller (LLM) som utnyttjar träningstekniker från AlphaGo, inklusive förstärkningsinlärning och trädsökning, som har potential att slå ut ChatGPT som den mest dominerande generativa AI-lösningen på planeten.

Nyheten kommer bara några månader efter att Google kombinerade sina AI-laboratorier Brain och DeepMind för att skapa ett nytt forskarteam kallat Google DeepMind, och bara några månader efter lanseringen av Bard och dess nästa generations PaLM 2 LLM.

Forskare räknar med att marknaden för generativ AI kommer att vara värd 1,3 biljoner USD år 2032, så det är tydligt att Google satsar allt på att investera i området för att behålla sin position som ledande inom AI-utveckling.

Allt vi hittills vet om Gemini

Medan många förväntar sig att Google Gemini kommer att släppas hösten 2023, är inte mycket känt om modellens kapacitet.

I maj publicerade Sundar Pichai, VD för Google och Alphabet, ett blogginlägg med en översikt över LLM och förklarade:

“Gemini skapades från grunden för att vara multimodal, mycket effektiv när det gäller verktygs- och API-integrationer och byggd för att möjliggöra framtida innovationer, som minne och planering.”

Pichai noterade också att “även om det fortfarande är tidigt, ser vi redan imponerande multimodala funktioner som inte setts i tidigare modeller.

“Efter finjustering och rigorösa säkerhetstester kommer Gemini att finnas tillgänglig i olika storlekar och med olika kapacitet, precis som PaLM 2.”

Sedan dess har inte mycket sagts om lanseringen officiellt, förutom Google DeepMinds VD Demis Hassabis intervju med Wired där han noterade att Gemini kommer att “kombinera några av styrkorna hos system av AlphaGo-typ med de stora modellernas fantastiska språkkunskaper.”

Android Police har också hävdat att en anonym källa som är involverad i produkten har kommenterat att Gemini kommer att kunna generera text och kontextuella bilder och kommer att tränas på källor som YouTube-videotranskriptioner.

Kommer Gemini att ta över kronan från ChatGPT?

En av de största diskussionerna kring lanseringen av Gemini är huruvida den mystiska språkmodellen har vad som krävs för att slå ut ChatGPT, som i år nådde över 100 miljoner aktiva användare varje månad.

Till en början använde Google Geminis förmåga att generera text och bilder för att skilja den från GPT4, men den 25 september 2023 meddelade OpenAI att användarna skulle kunna ange röst- och bildfrågor i ChatGPT.

Nu när OpenAI experimenterar med en multimodal modell och har anslutit ChatGPT till Internet, är Googles stora utbud av egenutvecklade träningsdata kanske den mest hotfulla skillnaden mellan de två. Google Gemini kan bearbeta data som hämtats från olika tjänster, inklusive Google Search, YouTube, Google Books och Google Scholar.

Användningen av denna proprietära data för att träna Gemini-modellerna kan leda till en tydlig fördel i sofistikeringen av de insikter och slutsatser som den kan ta från en datauppsättning. Detta gäller särskilt om de tidiga rapporterna om att Gemini tränas på dubbelt så många tokens som GPT4 är korrekta.

Dessutom kan partnerskapet mellan Google DeepMind och Brain-teamen i år inte underskattas, eftersom det ställer OpenAI mot ett team av AI-forskare i världsklass, inklusive Googles medgrundare Sergey Brin och DeepMinds seniora AI-forskare och maskininlärningsexpert Paul Barham.

Det här är ett erfaret team som har en djup förståelse för hur man använder tekniker som förstärkningsinlärning och trädsökning för att skapa AI-program som kan samla in feedback och förbättra sin problemlösning över tid, vilket DeepMind-teamet använde för att lära AlphaGo att besegra en Go-världsmästare 2016.

AI:s kapprustning

Geminis kombination av multimodala förmågor, användning av förstärkningsinlärning, text- och bildgenereringsförmåga och Googles egen data är alla de ingredienser som Gemini behöver för att överträffa GPT-4.

Utbildningsdata är den viktigaste skillnaden, trots allt kommer den organisation som vinner LLMs kapprustning till stor del att avgöras baserat på vem som tränar sina modeller på den största och rikaste datauppsättningen.

Med OpenAI som enligt uppgift arbetar på en ny nästa generations multimodal LLM som heter Gobi kan vi dock inte avskriva den generativa AI-jätten ännu. Frågan är nu vem som är bäst på multimodal AI?

Relaterade termer

Tim Keary

Sedan januari 2017 har Tim Keary varit en oberoende teknikskribent och reporter som bevakar företagsteknik och cybersäkerhet.