Google Gemini AI jest poważnym zagrożeniem dla ChatGPT — Oto dlaczego

Dlaczego warto zaufać Techopedii
Przegląd najważniejszych treści

Google Gemini, czyli multimodalny model językowy stworzony przy wykorzystaniu technik inspirowanych AlphaGo, to strategiczna odpowiedź Google na ChatGPT. Dzięki możliwościom multimodalnym i potencjalnemu dostępowi do rozległych danych szkoleniowych z różnych usług Google, Gemini ma realne szanse, by podważyć dominację ChatGPT w branży generatywnej AI. Krok ten podkreśla również zaangażowanie Google w innowacje AI oraz konkurencyjność na szybko rosnącym rynku generatywnej sztucznej inteligencji, który do 2032 roku ma być wart 1,3 bln $.

Uruchomienie ChatGPT w listopadzie 2022 roku wstrząsnęło fundamentami Google. Popularny chatbot stanowił bowiem tak duże zagrożenie dla działalności firmy, że musiała ona ogłosić stan alarmowy i zaczęła intensywnie inwestować, aby dogonić galopujący rynek generatywnej AI.

Działania na tym polu zaowocowały wydaniem nie tylko Google Bard, ale również Google Gemini, które zostało uruchomione w środę, 6 grudnia 2023 roku.

W nadchodzących miesiącach będziemy śledzić dalszy rozwój projektu. Istnieje bowiem poważna szansa, że model Gemini przejmie koronę popularności AI, która do tej pory znajdowała się w rękach ChatGPT.

Czym jest Google Gemini?

Google Gemini to zestaw dużych modeli językowych (LLM), które wykorzystują techniki szkoleniowe zaczerpnięte z AlphaGo, w tym uczenie przez wzmacnianie (reinforcement learning) czy drzewo wyszukiwania.

Gemini ma więc potencjał, aby zdetronizować ChatGPT i zająć pozycję dominującego rozwiązania generatywnej AI na świecie.

Nowy projekt jest wynikiem miesięcy pracy, które nastąpiły po połączeniu laboratoriów AI Google Brain i DeepMind w celu stworzenia nowego zespołu badawczego o nazwie Google DeepMind, a także po wprowadzeniu Barda i jego nowej generacji modelu językowego PaLM 2 LLM.

Co potrafi Google Gemini?

Dzięki swojej multimodalności model może mieć bardzo wiele zastosowań, takich jak analizowanie wykresów, identyfikacja obiektów na zdjęciu, odczytywanie pisma odręcznego, rozwiązywanie zagadek i rebusów, tworzenie treści, zapisywanie danych w różnych formatach i wiele więcej.

Porównanie Gemini do ChatGPT jest więc jak najbardziej na miejscu.

Do tej pory w ofercie znalazło się już kilka rodzajów modeli, takich jak:

  • Gemini Pro,
  • Gemini Ultra,
  • Gemini Nano,
  • Gemini Flash.

Przy przewidywaniach, że rynek generatywnej AI osiągnie wartość 1,3 bln $ do 2032 roku, domyślamy się, dlaczego firma Google inwestuje pełną parą w tę przestrzeń. Chce utrzymać pozycję lidera w rozwoju AI, a sztuczna inteligencja Gemini ma w tym pomóc.

Wszystko, co wiemy o Gemini

W maju Sundar Pichai, CEO Google i Alphabet, opublikował wpis na blogu, w którym przedstawił ogólny zarys LLM, wyjaśniając:

„Gemini zostało stworzone od podstaw, tak aby było multimodalne, wysoce efektywne w integracji narzędzi i interfejsów API oraz zbudowane z myślą o przyszłych innowacjach, takich jak pamięć i planowanie.”

Pichai zaznaczył również:

„Choć to dopiero początek, już teraz widzimy imponujące możliwości multimodalne, które nie występowały w poprzednich modelach. Po dopracowaniu i rygorystycznych testach bezpieczeństwa, Gemini będzie dostępne w różnych rozmiarach i możliwościach, podobnie jak PaLM 2.”

Z kolei Demis Hassabis, CEO Google DeepMind, w wywiadzie dla Wired zauważył, że Gemini będzie „łączyło niektóre z mocnych stron systemów typu AlphaGo z niesamowitymi możliwościami językowymi dużych modeli.”

Aktualnie każdy może przetestować możliwości Gemini w wersji darmowej lub płatnej (Gemini Advanced).

Czy Gemini odbierze koronę ChatGPT?

Jednym z najważniejszych tematów wokół premiery Gemini jest pytanie, czy nowy model językowy ma to, czego potrzeba, aby zdetronizować ChatGPT, który w tym roku przekroczył liczbę 100 milionów aktywnych użytkowników miesięcznie.

Zacznijmy od tego, że początkowo Google wykorzystywało zdolności Gemini do generowania tekstu i obrazów, aby wyróżnić się na tle GPT-4.

Jednak nie trwało to długo, ponieważ 25 września 2023 roku OpenAI ogłosiło, że użytkownicy będą mogli wprowadzać zapytania głosowe i obrazowe również do ChatGPT.

Natomiast teraz, gdy OpenAI eksperymentuje z podejściem do modelu multimodalnego i połączyło ChatGPT z internetem, być może najgroźniejszym wyróżnikiem między konkurencyjnymi modelami jest ogromna baza danych szkoleniowych Google.

Gemini może bowiem przetwarzać dane pochodzące z różnych źródeł i usług firmy, w tym Google Search, YouTube, Google Books, Google Cloud czy Google Scholar.

Wykorzystanie własnych danych do szkolenia modeli Gemini może zapewnić im wyraźną przewagę w zakresie zaawansowania analiz i wniosków, które AI wyciągnie z podanych informacji.

Prawdopodobieństwo takiego rozwoju sytuacji jest tym większe, im bardziej prawdziwe są wczesne doniesienia, jakoby Gemini był szkolony na dwa razy większej liczbie tokenów od GPT-4.

Połączenie sił zespołów Google DeepMind i Brain w tym roku też nie może być lekceważone, ponieważ stawia OpenAI w bezpośredniej konkurencji z grupą badaczy AI światowej klasy, w tym współzałożycielem Google Sergeyem Brinem i głównym naukowcem AI DeepMind oraz ekspertem w dziedzinie uczenia maszynowego Paulem Barhamem.

Jest to doświadczony zespół, który doskonale rozumie, jak stosować techniki takie jak uczenie przez wzmacnianie i drzewo wyszukiwania, aby tworzyć programy AI gromadzące informacje zwrotne i z czasem doskonalące swoje rozwiązywanie problemów.

Wiedzę tę zespół DeepMind wykorzystał, aby nauczyć AlphaGo pokonania mistrza świata w Go w 2016 roku.

Wyścig zbrojeń w dziedzinie AI

Połączenie zdolności multimodalnych, uczenia przez wzmacnianie, możliwości generowania tekstu i obrazów oraz własnych danych Google to wszystkie składniki, których Gemini potrzebuje, aby przewyższyć GPT-4.

Dane szkoleniowe Google są tutaj kluczowym czynnikiem różnicującym. W końcu zwycięstwo w wyścigu zbrojeń w dziedzinie dużych modeli językowych będzie w dużej mierze zależało od tego, kto szkoli swoje modele na największym i najbogatszym zestawie danych.

Jednak biorąc pod uwagę, że OpenAI podobno pracuje nad nowym multimodalnym modelem LLM następnej generacji o nazwie Gobi, nie możemy jeszcze odebrać firmie pozycji giganta generatywnej AI. Pozostaje nam tylko zadać pytanie, kto lepiej zrealizuje koncepcję multimodalnej sztucznej inteligencji?

Jedno jest pewne: rywalizacja na linii Google Gemini/ChatGPT zaogni się w nadchodzących miesiącach.

Powiazane hasła

Related Articles

Tim Keary
Technology Specialist
Tim Keary
specjalista ds. technologii

Tim Keary pracuje jako freelancer. Jest autorem publikacji z dziedziny nowych technologii oraz reporterem. W swojej pracy dziennikarskiej zajmuje się takimi tematami jak sztuczna inteligencja, cyberbezpieczeństwo, czy najnowsze technologie biznesowe. W 2023 toku dołączył w pełnym wymiarze czasowym do zespołu Techopedii, przedtem zaś publikował swoje teksty w serwisach takich jak VentureBeat, Forbes Advisor i kilka innych renomowanych platform technologicznych. Tim najczęściej publikował teksty, w których analizowal najnowsze trendy i badał innowacje w świecie technologii. Tim ma dyplom magistra historii, który uzyskał na Uniwersytecie w Kent. Podczas studiów zdobył umiejętność rozbijania trudnych tematów na proste koncepty. Kiedy nie jest zajęty pisaniem…