Google Gemini geht an den Start: Was ist zu erwarten?

DAS WICHTIGSTE IM ÜBERBLICK

Ist dies das nächste Kapitel für KI? Google stellt seine Antwort auf OpenAIs ChatGPT vor. Es wird eine faszinierende Zeit sein, diese beiden Tech-Giganten bei ihren Innovationen gegeneinander antreten zu sehen.

Google hat die Einführung seines neuen multimodalen KI-Modells namens Gemini angekündigt, das Text, Bilder, Video, Audio und Code verstehen und erkennen kann. 

Gemini ist das Ergebnis umfangreicher gemeinsamer Anstrengungen von Teams bei Google, einschließlich unserer Kollegen bei Google Research“, schrieb der CEO und Mitbegründer von Google DeepMind, Demis Hassabis, im offiziellen Blogpost.

„Es wurde von Grund auf so konzipiert, dass es multimodal ist, d. h. es kann verschiedene Arten von Informationen wie Text, Code, Audio, Bild und Video verstehen und nahtlos miteinander kombinieren“, schrieb Hassabis.

Willkommen in der Gemini-Ära auf der Website

Es gibt drei bestätigte Versionen des Modells: Gemini Ultra, Gemini Pro und Gemini Nano, die alle einzigartig sind. Gemini Ultra ist das größte Modell.

Gemini Pro ist für eine Reihe von Aufgaben ausgelegt, und Gemini Nano ist das effizienteste Modell für Geräteanwendungen (und damit ideal für den mobilen Einsatz).

3 Modelle von Gemini
Drei Typen von Gemini

Gemini wurde nun zum Chatbot Bard von Google hinzugefügt. Im Dezember wird Gemini Nano in das Pixel 8 Pro integriert, um Zusammenfassungs- und Smart-Reply-Funktionen zu ermöglichen.

Auch andere Produkte wie Search, Ads und Chrome werden in Zukunft mit Gemini-Modellen ausgestattet sein.

Wie gut ist Google Gemini?

Die Veröffentlichung erfolgt nur einen Monat, nachdem OpenAI die Einführung von GPT-4 Turbo und seines eigenen multimodalen Modells GPT-4v angekündigt hat, das Bildeingaben verstehen kann.

Zwar ist es noch zu früh, um daraus zu schließen, dass Gemini OpenAI und GPT-4 überholt hat. Es sieht aber auf jeden Fall so aus.

Wie Hassibis in einem Interview mit The Verge bestätigte, wurde Gemini von Google im Vergleich zu GPT-4 in 32 Benchmarks getestet, wobei Gemini in 30 dieser Benchmarks einen „deutlichen Vorsprung“ hatte.

Eine der herausragenden Leistungen von Gemini besteht in seiner Fähigkeit, als erstes Modell menschliche Experten im Bereich des massiven Multitasking-Sprachverständnisses (engl. Massiv Multitask Language Understanding, MMLU) zu übertreffen und dabei einen Wert von 90,0 % zu erreichen.

Gleichzeitig hat Gemini Ultra in einer Reihe von Benchmarks knapp über GPT-4 abgeschnitten, unter anderem:

  • Big-Bench Hard (83,6 % vs. 83,1 %),
  • DROP (82,4 % vs. 80,9 %),
  • GSM8K (94,4 % vs. 92,0 %),
  • MATH (53,2 % vs. 52,9 %),
  • HumanEval (74,4 % vs. 67,0 %).

Dies zeigt, dass Gemini Ultra einen leichten Vorsprung gegenüber GPT-4 in den Bereichen mehrstufiges Denken, Leseverständnis, grundlegende arithmetische Operationen und Python-Code-Generierung hat. 

Gemini-Leistung

Darüber hinaus behauptet Google, dass Gemini Ultra auch in den Bereichen multimodale Leistung, natürliches Bildverständnis, natürliche Bild-OCR, Dokumentenverständnis, Verständnis von Infografiken und mathematisches Denken in visuellen Kontexten vor GPT-4 liegt.

Gemini hat auch beim MMMU-Benchmark, der die Leistung bei multimodalen Aufgaben misst, einen Spitzenwert erreicht. 

Dafür wurde Gemini auf verschiedenen Modalitäten vortrainiert und dann feinabgestimmt, um die Fähigkeit des Modells zu verbessern, verschiedene Arten von Eingaben besser zu verstehen und zu interpretieren als alle bisherigen LLMs.

Unterm Strich

In den kommenden Wochen werden wir Gemini genauer unter die Lupe nehmen und sehen, ob die Behauptungen mit der Realität übereinstimmen.

Spannend ist, wie sich Gemini in die Google-Suite von Diensten einfügen lässt.

Wird Google Home einfacher zu bedienen sein (abgesehen von gelegentlichen Halluzinationen), wenn man zwanglosere Unterhaltungen mit seinem „Haus“ führen kann?

Werden sich die Suchmaschinenseiten radikal verändern? Werden Dienste wie Gmail und Google Maps ganz anders sein, wenn KI zwischen dem Nutzer und dem Produkt sitzt?

Wenn man die Leistung von Gemini bei diesen Benchmarks zusammen mit den Plänen zur Integration des LLM in beliebte Produkte wie Chrome und Search auf dem Weg zu einer Search Generative Experience betrachtet, wird klar, dass OpenAI einen ernsthaften Konkurrenten vor sich hat.

Verwandte Begriffe

Tim Keary

Seit Januar 2017 arbeitet Tim Keary als freiberuflicher Technologie-Autor und Reporter für Unternehmenstechnologie und Cybersicherheit.