Uruchomienie ChatGPT w listopadzie 2022 roku wstrząsnęło fundamentami Google. Popularny chatbot stanowił bowiem tak duże zagrożenie dla działalności firmy, że musiała ona ogłosić stan alarmowy i zaczęła intensywnie inwestować, aby dogonić galopujący rynek generatywnej AI.
Działania na tym polu zaowocowały wydaniem nie tylko Google Bard, ale również Google Gemini, które zostało uruchomione w środę, 6 grudnia 2023 roku.
W nadchodzących miesiącach będziemy śledzić dalszy rozwój projektu. Istnieje bowiem poważna szansa, że model Gemini przejmie koronę popularności AI, która do tej pory znajdowała się w rękach ChatGPT.
Czym jest Google Gemini?
Google Gemini to zestaw dużych modeli językowych (LLM), które wykorzystują techniki szkoleniowe zaczerpnięte z AlphaGo, w tym uczenie przez wzmacnianie (reinforcement learning) czy drzewo wyszukiwania.
Gemini ma więc potencjał, aby zdetronizować ChatGPT i zająć pozycję dominującego rozwiązania generatywnej AI na świecie.
Nowy projekt jest wynikiem miesięcy pracy, które nastąpiły po połączeniu laboratoriów AI Google Brain i DeepMind w celu stworzenia nowego zespołu badawczego o nazwie Google DeepMind, a także po wprowadzeniu Barda i jego nowej generacji modelu językowego PaLM 2 LLM.
Co potrafi Google Gemini?
Dzięki swojej multimodalności model może mieć bardzo wiele zastosowań, takich jak analizowanie wykresów, identyfikacja obiektów na zdjęciu, odczytywanie pisma odręcznego, rozwiązywanie zagadek i rebusów, tworzenie treści, zapisywanie danych w różnych formatach i wiele więcej.
Porównanie Gemini do ChatGPT jest więc jak najbardziej na miejscu.
Do tej pory w ofercie znalazło się już kilka rodzajów modeli, takich jak:
- Gemini Pro,
- Gemini Ultra,
- Gemini Nano,
- Gemini Flash.
Przy przewidywaniach, że rynek generatywnej AI osiągnie wartość 1,3 bln $ do 2032 roku, domyślamy się, dlaczego firma Google inwestuje pełną parą w tę przestrzeń. Chce utrzymać pozycję lidera w rozwoju AI, a sztuczna inteligencja Gemini ma w tym pomóc.
Wszystko, co wiemy o Gemini
W maju Sundar Pichai, CEO Google i Alphabet, opublikował wpis na blogu, w którym przedstawił ogólny zarys LLM, wyjaśniając:
„Gemini zostało stworzone od podstaw, tak aby było multimodalne, wysoce efektywne w integracji narzędzi i interfejsów API oraz zbudowane z myślą o przyszłych innowacjach, takich jak pamięć i planowanie.”
Pichai zaznaczył również:
„Choć to dopiero początek, już teraz widzimy imponujące możliwości multimodalne, które nie występowały w poprzednich modelach. Po dopracowaniu i rygorystycznych testach bezpieczeństwa, Gemini będzie dostępne w różnych rozmiarach i możliwościach, podobnie jak PaLM 2.”
Z kolei Demis Hassabis, CEO Google DeepMind, w wywiadzie dla Wired zauważył, że Gemini będzie „łączyło niektóre z mocnych stron systemów typu AlphaGo z niesamowitymi możliwościami językowymi dużych modeli.”
Aktualnie każdy może przetestować możliwości Gemini w wersji darmowej lub płatnej (Gemini Advanced).
Czy Gemini odbierze koronę ChatGPT?
Jednym z najważniejszych tematów wokół premiery Gemini jest pytanie, czy nowy model językowy ma to, czego potrzeba, aby zdetronizować ChatGPT, który w tym roku przekroczył liczbę 100 milionów aktywnych użytkowników miesięcznie.
Zacznijmy od tego, że początkowo Google wykorzystywało zdolności Gemini do generowania tekstu i obrazów, aby wyróżnić się na tle GPT-4.
Jednak nie trwało to długo, ponieważ 25 września 2023 roku OpenAI ogłosiło, że użytkownicy będą mogli wprowadzać zapytania głosowe i obrazowe również do ChatGPT.
Natomiast teraz, gdy OpenAI eksperymentuje z podejściem do modelu multimodalnego i połączyło ChatGPT z internetem, być może najgroźniejszym wyróżnikiem między konkurencyjnymi modelami jest ogromna baza danych szkoleniowych Google.
Gemini może bowiem przetwarzać dane pochodzące z różnych źródeł i usług firmy, w tym Google Search, YouTube, Google Books, Google Cloud czy Google Scholar.
Wykorzystanie własnych danych do szkolenia modeli Gemini może zapewnić im wyraźną przewagę w zakresie zaawansowania analiz i wniosków, które AI wyciągnie z podanych informacji.
Prawdopodobieństwo takiego rozwoju sytuacji jest tym większe, im bardziej prawdziwe są wczesne doniesienia, jakoby Gemini był szkolony na dwa razy większej liczbie tokenów od GPT-4.
Połączenie sił zespołów Google DeepMind i Brain w tym roku też nie może być lekceważone, ponieważ stawia OpenAI w bezpośredniej konkurencji z grupą badaczy AI światowej klasy, w tym współzałożycielem Google Sergeyem Brinem i głównym naukowcem AI DeepMind oraz ekspertem w dziedzinie uczenia maszynowego Paulem Barhamem.
Jest to doświadczony zespół, który doskonale rozumie, jak stosować techniki takie jak uczenie przez wzmacnianie i drzewo wyszukiwania, aby tworzyć programy AI gromadzące informacje zwrotne i z czasem doskonalące swoje rozwiązywanie problemów.
Wiedzę tę zespół DeepMind wykorzystał, aby nauczyć AlphaGo pokonania mistrza świata w Go w 2016 roku.
Wyścig zbrojeń w dziedzinie AI
Połączenie zdolności multimodalnych, uczenia przez wzmacnianie, możliwości generowania tekstu i obrazów oraz własnych danych Google to wszystkie składniki, których Gemini potrzebuje, aby przewyższyć GPT-4.
Dane szkoleniowe Google są tutaj kluczowym czynnikiem różnicującym. W końcu zwycięstwo w wyścigu zbrojeń w dziedzinie dużych modeli językowych będzie w dużej mierze zależało od tego, kto szkoli swoje modele na największym i najbogatszym zestawie danych.
Jednak biorąc pod uwagę, że OpenAI podobno pracuje nad nowym multimodalnym modelem LLM następnej generacji o nazwie Gobi, nie możemy jeszcze odebrać firmie pozycji giganta generatywnej AI. Pozostaje nam tylko zadać pytanie, kto lepiej zrealizuje koncepcję multimodalnej sztucznej inteligencji?
Jedno jest pewne: rywalizacja na linii Google Gemini/ChatGPT zaogni się w nadchodzących miesiącach.