Grok 1.5 fast auf GPT-4-Niveau, aber noch mit Nachholbedarf

Transparenz

Wichtigste Erkenntnisse

  • Grok 1.5, der Chatbot des KI-Startups X.AI von Elon Musk, zeigt vielversprechende Leistungsverbesserungen und nähert sich bei mehreren Benchmarks der GPT-4-Leistung an.
  • Das Alleinstellungsmerkmal von Grok liegt in seinem humorvollen Ansatz und der Freiheit von starren Richtlinien für die Inhaltsmoderation. Sein Marktversprechen bleibt jedoch ungewiss.
  • In Tests mit Konkurrenten wie ChatGPT und Gemini hat es sich bemerkenswert gut gehalten.
  • Mit seinem Ansatz, der den Nutzern einen ironischen Blick auf die Welt ermöglicht, bleibt es eine einzigartige Alternative im KI-Bereich.

Im Zeitalter der künstlichen Intelligenz (KI) fühlt sich eine Woche wie ein Jahr an, wobei neuere Modelle schneller auf den Markt kommen als ein Big Mac.

Der Humor-getriebene Chatbot Grok des KI-Startup X.AI von Elon Musk hat nun Version 1.5 veröffentlicht und steht – wie im Folgenden erläutert – kurz davor, so uneingeschränkt wie ChatGPT genutzt zu werden. Aber ist er schon so weit?

Grok 1.5, das Ende März auf den Markt kam, bietet nicht nur eine Kontextlänge von 128.000 Token, die der von GPT-4 Turbo entspricht, sondern nähert sich auch bei wichtigen Leistungsbenchmarks wie Massive Multitask Language Understanding (MMLU), MATH (mathematisches Problemlösen) und GSM8K (Grade School Math 8K) der Leistung von GPT-4 an.

In einer Kategorie namens HumanEval, die die Codegenerierungsfähigkeiten von Sprachmodellen misst, übertraf Grok 1.5 sogar GPT-4 mit einer Punktzahl von 74,1 % im Vergleich zu 67 %.

Diese Ergebnisse sind vielversprechend, aber Musk behauptet, dass sie nur ein Vorgeschmack auf die Zukunft sind.

In einem Beitrag auf X erklärte er, dass „Grok 2 die derzeitige KI in allen Bereichen übertreffen sollte“, während es nach seiner Aussage „gerade im Training ist“.

Wo steht Grok nach dem Update?

Als X.AI im November 2023 zum ersten Mal angekündigt wurde, gab es einen großen Hype um die Veröffentlichung.

Sie wurde als Musks Antwort auf ChatGPT vorgestellt – ein Assistent mit Echtzeitwissen über die Welt auf der X-Plattform. Heute ist Grok 1 mit 314 Milliarden Parametern eines der größten auf dem Markt erhältlichen Open-Source-Modelle.

Kurz nach dem Release wurde der Chatbot jedoch von allen Seiten kritisiert: Er sei nicht witzig, nicht witzig genug und komme nicht an das Niveau von GPT-4 heran.

Die Veröffentlichung von Grok 1.5 ist ein bedeutender Erfolg für X.AI. Es zeigt, dass sich die Lücke zwischen dem Humor-getriebenen Chatbot und ChatGPT schließt. Doch nach wie vor befindet sich das Unternehmen in einer Aufholjagd.

Zunächst einmal stellt sich die Frage des Umfangs. Grok ist nur für X-Premium+-Abonnenten verfügbar, und es ist unklar, wie viele Premium+-Abonnenten die Plattform zum jetzigen Zeitpunkt hat.

Im September 2023 berichtete Fortune, dass es 40.000 zahlende Abonnenten gab. Im Vergleich dazu hatte ChatGPT im selben Monat 100 Millionen wöchentlich aktive Nutzer.

Natürlich konnte sich ChatGPT schneller etablieren und hatte einen First-Mover-Vorteil. Aber eines der größten Probleme für Grok ist der Wettbewerb auf dem Markt für große Sprachmodelle (LLM).

Es gibt inzwischen so viele leistungsstarke Tools, dass KI-Anbieter nicht nur gute Ergebnisse erzielen, sondern sich auch konkret abheben müssen.

Platz für Humor auf dem KI-Markt

In einem Versuch, Grok von anderen LLMs zu unterscheiden, vermarktete X.AI es zunächst als „eine KI nach dem Vorbild des Per Anhalter durch die Galaxis“, mit „ein bisschen Witz“ und einer „rebellischen Ader“, die „fast alles beantworten soll“.

Dazu würden auch „pikante Fragen gehören, die von den meisten anderen KI-Systemen abgelehnt werden“.

So gesehen unterscheidet sich Grok von anderen Anbietern dadurch, dass es den Nutzern einen virtuellen Assistenten zur Verfügung stellt, der nicht an Moderationsrichtlinien wie ChatGPT oder Bard (jetzt Gemini) gebunden ist und auf eine breitere Palette von Fragen auf eine unbeschwertere Art und Weise antwortet.

Das Problem bei dieser Diversifizierung ist, dass es letztlich unklar ist, ob Groks Ansatz zur Inhaltsmoderation und seine humorvollen Ergebnisse es in den meisten Anwendungsfällen ChatGPT, Gemini oder Claude 3 vorziehen.

Zum Beispiel bietet die Erstellung von Inhalten oder Übersetzung nicht viel Raum für Humor.

Darüber hinaus hat die generative KI auch ein großes PR-Problem, da ein erheblicher Teil der Menschen besorgt darüber ist, was diese Technologie für die Zukunft bedeutet.

Laut Pew Research geben 52 % der Amerikaner an, dass sie über den zunehmenden Einsatz von künstlicher Intelligenz eher besorgt als begeistert sind.

Auch eine von Forbes Advisor durchgeführte Studie zeigt, dass 76 % der Verbraucher über Fehlinformationen durch KI-Tools wie ChatGPT, Bing Chat und Gemini beunruhigt sind.

Da diese Bedenken weit verbreitet sind, wird es viele Nutzer geben, die lieber zu stark moderierten KI-Tools greifen, bei denen Genauigkeit und Unbedenklichkeit wichtiger sind als Humor.

Das soll nicht heißen, dass Grok gefährlich ist, sondern dass viele Menschen zu vorsichtig sind, was die generelle Tendenz von Sprachmodellen angeht, Fehlinformationen, vorurteilsbehaftete Ausgaben und schädliche Inhalte zu produzieren, um einen humorvollen KI-Assistenten zu akzeptieren (selbst wenn X.AI eine strenge Richtlinie zur Inhaltsmoderation hat).

Zwar hat X.AI versucht, solche Nutzer in seiner ersten Werbeversion direkt mit dem Satz „Bitte benutzen Sie es nicht, wenn Sie Humor hassen!“ anzusprechen, doch wird diese Positionierung unweigerlich viele User abschrecken, es sei denn, Grok wird um Längen besser als jedes andere LLM auf dem Markt.

Grok vs. GPT-4, Gemini

ChatGPT mit GPT-4 und Gemini sind zwei der größten Konkurrenten von Grok auf dem LLM-Markt.

Jeder dieser Wettbewerber hat jedoch einige starke Vorteile und eine gute Marktpositionierung, die ihnen einen deutlichen Vorsprung verschaffen.

Seit der Veröffentlichung von ChatGPT im November 2022 hat OpenAI sein Vorzeigemodell GPT-4 zu einem multimodalen virtuellen Assistenten ausgebaut, der Text-, Sprach- und Bildeingaben versteht.

Es hat auch das generative KI-Äquivalent eines App-Stores entwickelt – GPT Store, in dem Entwickler benutzerdefinierte Versionen von ChatGPT, die mit dem GPT-Builder erstellt wurden, anbieten können.

In ähnlicher Weise hat Gemini eine Identität als multimodaler Recherche-Assistent aufgebaut, mit dem man das Web durchsuchen kann.

Außerdem werden Integrationen mit Google Cloud und Google-Produkten wie Gmail, Google Docs und Search eingeführt.

Andere Wettbewerber wie Microsoft haben den GPT-4-gesteuerten Bing Chat und das Microsoft Office 365-Ökosystem.

Im Vergleich dazu hat Grok außer seiner vielversprechenden Leistung, seiner Verbindung zu X und seiner Verwendung von Humor nur wenig zu bieten.

Es bleibt abzuwarten, ob dies ausreicht, um mit OpenAI oder Google mithalten zu können.

Fazit

Grok hat in kurzer Zeit einen weiten Weg zurückgelegt, aber trotz seiner Leistung liegt noch eine lange Strecke vor ihm, bevor es auf dem hart umkämpften Markt für LLM als ebenbürtig mit ChatGPT und Gemini angesehen werden kann.

Vielleicht ist es aber auch ein Werkzeug, mit dem man experimentieren kann und das einen alternativen, ironischen Blick auf die Welt ermöglicht? Es ist gut, einen Wettbewerber zu haben, der einen Hauch von Ironie in sich trägt.

Verwandte Begriffe

Tim Keary
Tech Experte
Tim Keary
Tech Experte

Seit Januar 2017 arbeitet Tim Keary als freiberuflicher Technologie-Autor und Reporter für Unternehmenstechnologie und Cybersicherheit.