Gestern gab Google das Rebranding seines Bard-Chatbots und die Veröffentlichung von Gemini Ultra, seinem leistungsstärksten großen Sprachmodell (LLM), bekannt.
Derzeit können Nutzer mit Gemini online oder über Google Play und den App Store in über 40 Sprachen interagieren. Die Standardversion des Chatbots basiert auf dem Modell Gemini Pro 1.0.
„Unser Ziel bei Bard war es immer, einen direkten Zugang zu unseren KI-Modellen zu ermöglichen, und Gemini repräsentiert unsere leistungsfähigste Modellfamilie. Um dies zum Ausdruck zu bringen, wird Bard nun einfach als Gemini bezeichnet“, heißt es in einem Google-Blogbeitrag zur Ankündigung.
Gleichzeitig teilte Google die Veröffentlichung von Gemini Advanced mit, einer verbesserten Version des Chatbots, die über einen Google One Premium Plan (20 $ pro Monat) erhältlich ist und Zugriff auf Ultra 1.0 bietet.
Das Modell soll hochkomplexe Aufgaben wie Codierung, logisches Denken und das Befolgen von Anweisungen besser bewältigen und längere Unterhaltungen unterstützen.
Wichtigste Erkenntnisse
- Google benennt seinen Bard-Chatbot in Gemini um und führt Gemini Ultra ein, sein bisher leistungsstärkstes großes Sprachmodell (LLM).
- Gemini unterstützt mehr als 40 Sprachen und ist eng in das Produkt-Ökosystem von Google integriert.
- Gemini Advanced soll sich durch Aufgaben wie Codierung und logisches Denken auszeichnen und kann sowohl Text-, Sprach- als auch Bildeingaben verarbeiten.
- Mit diesem Schritt wird Gemini zum Flaggschiff unter den KI-Produkten von Google, wodurch sich der Wettbewerb zwischen Google und OpenAI-Microsoft verschärft.
Wie wirkt sich das Rebranding von Bard und die Einführung von Gemini Advanced auf den KI-Markt aus?
Mit der Umbenennung von Bard in Gemini versucht Google, die Gemini-Familie von LLMs als sein Vorzeigeprodukt für multimodale KI zu positionieren.
Der neu erschienene Gemini unterstützt eine Reihe von Eingaben, darunter Text, Sprache und Bilder. Dank Googles Text-zu-Bild-Modell Imagen 2 kann die Lösung auch Bilder generieren.
Einer der Hauptgründe dafür ist, dass Multimodalität zu einer wettbewerbsrelevanten Notwendigkeit im LLM-Rennen wird. Schließlich haben Anbieter wie OpenAI und Microsoft bereits Multimodalität in ihr Produktportfolio aufgenommen.
So fügte OpenAI Ende letzten Jahres eine Integration mit dem Text-zu-Bild-Modell DALL-E 3 und die Fähigkeit zur Unterstützung von Spracheingaben hinzu.
Erst kürzlich kündigte Microsoft die Funktion zur Erstellung und Bearbeitung von Bildern mit Copilot an und brachte ein neues Modell namens Deucalion auf den Markt.
Einführung von Gemini Advanced
Die wohl bedeutendste Marktneuheit ist Gemini Advanced, das nicht nur Zugang zum leistungsstarken Ultra 1.0-Modell von Google, sondern auch zu 2 TB Speicherplatz in der Cloud bietet.
Darüber hinaus sagt das Unternehmen, dass Premium-Abonnenten Gemini über Gmail, Docs, Slides und Sheets nutzen und auf die in diesen Anwendungen enthaltenen Daten zugreifen können.
Angesichts dessen macht Gemini Advanced mit seinem Zugang zu einem leistungsfähigeren multimodalen KI-Modell und der tiefen Integration in das Produkt-Ökosystem von Google zum gleichen Preis wie die Plus-Version von ChatGPT ein wesentlich konkurrenzfähigeres Angebot als die Lösungen von OpenAI und Microsoft.
Natürlich bietet Microsoft immer noch ein sehr starkes Produkt an – nicht nur Bing Chat mit GPT-4, sondern auch die Integration von Copilot in Office 365-Anwendungen wie Word, PowerPoint, Excel, Teams und Power. Ebenso hat OpenAI noch Zeit, das lang erwartete GPT-5 zu veröffentlichen.
Ist Gemini Advanced besser als ChatGPT?
Ausgehend von den verfügbaren Informationen zeigt Gemini Advanced eine beeindruckende Leistung und übertrifft sogar ChatGPT, genauer gesagt die GPT-4-Version, in bestimmten Bereichen.
Laut Googles Forschungsergebnissen ist das von ihm eingesetzte Ultra 1.0-Modell das erste LLM, das menschliche Experten beim Massive Multitask Language Understanding (MMLU)-Benchmark mit einem Ergebnis von 90 % übertrifft.
Zum Vergleich: Das Ergebnis von GPT-4 bei demselben Benchmark lag bei 86,5 %.
Aus der Google-Studie geht außerdem hervor, dass Ultra in 30 von 32 durchgeführten Tests die besten Ergebnisse erzielt, darunter gängige Text- und Logik-, Bildverständnis-, Spracherkennungs- und Sprachübersetzungs-Benchmarks.
Gemini Ultra liegt zwar auf einem ähnlichen Niveau wie GPT-4, übertrifft es aber nicht deutlich.
Ethan Mollick, ein außerordentlicher Professor an der Wharton School der University of Pennsylvania, der sechs Wochen lang mit dem Modell experimentiert hat, schrieb in einem Blogbeitrag, dass „Gemini Advanced eindeutig ein Modell der Klasse GPT-4 ist“, wies aber auch darauf hin, dass es „GPT-4 in den Benchmarks offensichtlich nicht übertrifft“.
In Bezug auf die Differenzierung argumentierte Mollick, dass „GPT-4 viel ausgeklügelter bei der Verwendung von Code ist und eine Reihe schwieriger verbaler Aufgaben besser bewältigt“, während „Gemini besser für Erklärungen geeignet ist und Bilder und Suchfunktionen hervorragend integriert“.
In jedem Fall ist es klar, dass sich die Kluft zwischen OpenAI und Googles Modellen auf einen schmalen Grat geschlossen hat.
Nun gibt es eine lebensfähige Alternative, die mit dem richtigen Produkt-Ökosystem ausgestattet ist und die monolithische OpenAI-Microsoft-Partnerschaft herausfordert, die kürzlich eine Untersuchung der Europäischen Kommission ausgelöst hat.
Fazit
Der LLM-Markt ist gerade viel interessanter geworden. Mit der Ablösung von Bard durch Gemini und dem Aufeinandertreffen von Gemini Advanced und ChatGPT Plus wird der Wettbewerb zwischen Google und OpenAI-Microsoft noch viel größer.
Wenn es ein Unternehmen gibt, das OpenAI als marktbeherrschenden Anbieter ablösen kann, dann ist es Google.
Allein durch die schiere Kraft seines erfahrenen DeepMind-Teams und die Fülle an eigenen Daten, die es aus Quellen wie Google Search und YouTube sammelt.
Jetzt ist es aber noch zu früh, um von einer Entthronung von GPT-4 zu sprechen.