Letzte Woche kündigte Google die Einführung von Gemini 1.5 an, einer aktualisierten Version des kürzlich veröffentlichten Modells Gemini 1.0.
Das Modell verfügt über das längste Kontextfenster aller auf dem Markt erhältlichen Basismodelle und kann bis zu 1 Million Token in einem einzigen Prompt verarbeiten. Dies macht es ideal für die Analyse und Zusammenfassung größerer Textmengen.
Während Gemini 1.5 Pro auf ein Kontextfenster von 128.000 Token beschränkt ist, kann eine begrenzte Gruppe von Entwicklern und Unternehmenskunden es mit bis zu 1 Million Token über AI Studio und Vertex AI nutzen.
Wichtigste Erkenntnisse
- Google hat Gemini 1.5 vorgestellt, das eine bemerkenswerte Kapazität zur Verarbeitung von bis zu 1 Million Token für ausgewählte Nutzer hat.
- Im Vergleich dazu liegt die Obergrenze von Claude 2.1 bei 200.000 Token oder 128.000 Token bei GPT-4.
- Gemini kann bis zu einer Stunde Video, 11 Stunden Audio, 30.000 Zeilen Code oder 700.000 Wörter in einem Prompt verarbeiten.
- Ist das neue Wettrüsten um Token?
Im Vergleich zum GPT-4-Limit von 32.000 Token bzw. 128.000 Token für Nutzer von GPT-4 Turbo scheint Google die maximale Datenmenge, die man einem LLM zur Verfügung stellen kann, massiv zu erhöhen.
Das Volumen von einer Million Token bedeutet, dass Gemini 1.5 einen einzigen Prompt aus einer der beiden folgenden Komponenten verarbeiten kann:
- 1 Stunde Video;
- 11 Stunden Audio;
- 30.000 Zeilen Code;
- 700.000 Wörter.
Zusammen mit dem am gleichen Tag von OpenAI vorgestellten Text-to-Video-Modell Sora, das bis zu einer Minute lange Videos erzeugen kann, wird deutlich, dass sich das multimodale KI-Wettrüsten auf ein noch nie dagewesenes Niveau erhitzt.
Welchen Platz nimmt Gemini 1.5 auf dem LLM-Markt ein?
Der Zeitpunkt dieser Markteinführung ist überraschend, denn sie erfolgt nur eine Woche, nachdem Google die Umbenennung von Bard angekündigt und sein leistungsstärkstes multimodales Modell, Gemini 1.0 Ultra, veröffentlicht hat.
Im Kern ist Gemini 1.5 eine leistungsfähigere Version des Modells Gemini Pro, das für den Chatbot Gemini als Nachfolger von Bard verwendet wurde.
Genauer gesagt, übertraf 1.5 Pro 1.0 Pro bei 87 % der Benchmarks, die bei Google zur Messung der Leistung von großen Sprachmodellen (LLM) herangezogen werden, während die Performance auf einem ähnlichen Niveau wie bei 1.0 Ultra lag, aber weniger Rechenressourcen benötigte.
Beeindruckend, wenn man bedenkt, dass Ultra das erste Modell war, das menschliche Experten beim Massive Multitask Language Understanding-Benchmark (MMLU) überflügeln konnte.
Sundar Pichai, CEO von Google und Alphabet, erklärte in einem Beitrag auf X: „Dieses Modell der nächsten Generation verwendet einen Mixture-of-Experts-Ansatz (MoE) für effizienteres Training und qualitativ hochwertigere Antworten.“
Was bedeutet ein MoE-Ansatz? Laut Demis Hassabis, dem CEO von Google DeepMind, „funktioniert ein traditioneller Transformer als ein großes neuronales Netzwerk, während MoE-Modelle in kleinere neuronale Expertennetzwerke unterteilt sind“.
„Abhängig von der Art des Inputs lernen MoE-Modelle, selektiv nur die relevantesten Expertenpfade in ihrem neuronalen Netzwerk zu aktivieren. Diese Spezifizierung steigert die Effizienz des Modells massiv“, so Hassabis in dem angekündigten Blogbeitrag.
Mit dieser Architektur kann Gemini 1.5 komplexe Aufgaben schneller lernen und besser trainiert werden. Das eigentliche Verkaufsargument für das Modell ist jedoch sein größeres Kontextfenster.
Mit der Fähigkeit, bis zu 1 Million Token zu unterstützen, übertrifft es sogar die 128.000er-Grenze von GPT-4 Turbo bei weitem.
Darüber hinaus verarbeitet das Modell auch Videoinhalte – eine Demo zeigt das Modell bei der Analyse von Handlungspunkten in Sherlock Jr. (1924), einem 45-minütigen Stummfilm von Buster Keaton.
Google DeepMind Research Scientist Machel Reid sagte: „In einem Test haben wir eine ganze Code-Basis eingefügt, und es hat eine Dokumentation dafür geschrieben, was wirklich cool war.“
„Und in einem anderen Test konnte es Fragen über den Film Sherlock Jr. aus dem Jahr 1924 korrekt beantworten, nachdem wir dem Modell den gesamten 45-minütigen Film zum ‚Anschauen‘ gegeben hatten.“
Das Rennen um multimodale KI
Die Veröffentlichung von Gemini 1.5 macht deutlich, dass das Rennen um die multimodale KI schneller als je zuvor ist.
Für Google ist es sinnvoll, das Eisen zu schmieden, solange es heiß ist, und mit der Veröffentlichung von Gemini schnell nachzuziehen, anstatt auf die Innovation von OpenAI zu warten.
Im Laufe 2023 baute Google rasch ein multimodales KI-Ökosystem auf. Bereits im Mai 2023 schrieb Pichai über die Entwicklung eines Basismodells der nächsten Generation namens Gemini, das „von Grund auf multimodal“ sein sollte.
Im Dezember kündigte der Tech-Riese dann die offizielle Einführung von Gemini an, das in drei Größen erhältlich ist: Ultra, Pro und Nano.
Die Pro-Version von Gemini wurde zunächst in Bard integriert, bevor der Forschungsassistent schließlich im Februar 2024 in Gemini umbenannt wurde.
Im Dezember stellte Google auch sein Text-zu-Bild-Diffusionsmodell Imagen 2 vor, das den Grundstein für das im Februar veröffentlichte Bildgenerierungstool ImageFX legte. Außerdem wurde das Text-zu-Musik-Tool MusicFX eingeführt.
Das Streben von OpenAI nach Multimodalität war nicht weniger chaotisch. Nach dem Start von GPT-4 im März 2023 kündigte das KI-Labor im September die Entwicklung von GPT-4V an, das ChatGPT mit der Fähigkeit zur Bildanalyse ausstattete.
Dank der Integration von DALL-E 3 haben ChatGPT Plus- und Enterprise-Abonnenten seit Oktober Zugriff auf die Bilderstellungsfunktionen von ChatGPT.
Nur einen Monat später, im November, kündigte das Unternehmen auf der Entwicklerkonferenz DevDay in San Francisco sein GPT-4-Turbo-Modell, Text-zu-Sprache sowie die Möglichkeit zur Erstellung eigener GPTs an.
Im Jahr 2024 wurde dieses Angebot mit der Einführung des GPT Store im Januar und von Sora im Februar weiter ausgebaut.
Zum jetzigen Zeitpunkt scheint der Schwerpunkt auf der schrittweisen Integration multimodaler Funktionen in die Flaggschiffmodelle der einzelnen Anbieter zu liegen.
Fazit
Eine kontinuierliche Entwicklung stellt die Voraussetzung für eine Vorreiterrolle auf dem multimodalen KI-Markt dar.
Zwar ist OpenAI nach wie vor die Nummer eins, aber mit der Einführung von Gemini 1.0 und Gemini 1.5 wird diese Dominanz allmählich abgebaut.
Auf lange Sicht wird es wohl darauf ankommen, wer dieses Innovationstempo durchhalten kann – und ob Verbraucher und Unternehmen einen Nutzen darin sehen, die Tools in ihre Arbeitsabläufe zu integrieren.