Beim Start von Grok im November 2023 gab es einen großen Hype.
Es wurde jedoch schnell klar, dass der Chatbot noch einen weiten Weg vor sich hat, bevor er mit wichtigen Wettbewerbern wie ChatGPT und Googles Bard (jetzt Gemini) mithalten kann. Grok-2 scheint die Antwort zu sein.
Das neue und verbesserte große Sprachmodell (LLM) von xAI kennt Echtzeit-Ereignisse über Twitter/X und übertrifft Claude und GPT-4 in der LYMSYS-Chatbot-Rangliste. Außerdem lassen sich damit hochwertige Bilder mit generativer KI erstellen.
Diese Faktoren in Verbindung mit der Ein-Mann-PR-Maschine Elon Musk machen Grok zu einem der größten Modelle auf dem heutigen Markt.
Wichtigste Erkenntnisse
- Das Sprachmodell Grok 2 von xAI hat sich zu einem der führenden LLMs auf dem Markt entwickelt.
- In der Gesamtwertung von LYMSYS schneidet Grok 2 besser ab als Claude und GPT-4.
- Die lockere Inhaltsmoderation des Modells steht im Einklang mit Elon Musks Grundsätzen der freien Meinungsäußerung, gibt aber Anlass zu Bedenken hinsichtlich eines möglichen Missbrauchs.
- Es bleibt unklar, wie xAI die Beiträge auf X in den Trainingsdaten von Grok 2 kuratiert.
- Unser Fazit: Das Modell holt noch immer auf GPT-4o und Gemini 1.5 Pro auf, ist aber in vielerlei Hinsicht ein Spitzenprodukt seiner Klasse.
Grok 2 im Jahr 2024
Während die Leistungsverbesserungen von Grok 2 die Lücke zwischen Konkurrenten wie OpenAI und Google weitgehend geschlossen haben, liegt der größte Gewinn für das LLM wohl in seinem Übergang zu einem multimodalen LLM.
Ursprünglich war Grok auf Text-zu-Text-Interaktionen beschränkt. Dank der Möglichkeit, qualitativ hochwertige Bilder zu erstellen, wurde es jedoch zu einem vielseitigeren Tool, das es mit Konkurrenten wie ChatGPT (mit DALL-E 3) aufnehmen kann.
Die Nutzer von X sind begeistert von der Bandbreite der Bilder, die Grok 2 generieren kann, sowie von der Möglichkeit, es mit Tools wie Runway Gen-3 Alpha oder Kling AI zur Erzeugung lebensechter animierter Videos zu kombinieren.
Die Integration von X hat sich ebenfalls ausgezahlt. Das Modell kann nun Nachrichten auf der Grundlage aktueller Beiträge zusammenfassen und auf Tweets verweisen, die zur Generierung von Ausgaben verwendet wurden.
Was Grok 2 jedoch wirklich auszeichnet, ist sein anderer Ansatz bei der Moderation. Die Text- und Bilderzeugungsfunktionen von Grok 2 sind unkomplizierter als die strenge Moderation von Tools wie OpenAI und Google.
Dies ist ein umstrittener Bereich, den man oft kritisiert, aber im Moment schauen wir uns die reinen Vorteile an.
Insbesondere Anbieter wie Google wurden wegen ihrer linksgerichteten Voreingenommenheit heftig kritisiert, was einige Nutzer verprellt haben dürfte.
Der humorvolle und laissez-faire Ansatz von Grok 2 bei der Moderation von Inhalten macht ihn möglicherweise zu einem weniger vorurteilsbelasteten Chatbot als politisch orientierte Sprachmodelle wie Gemini.
Die Position von Grok 2 auf dem Markt als ein der Redefreiheit wohlgesonnenes LLM wird durch Elon Musks weithin bekannte persönliche Überzeugungen in Bezug auf die Meinungsfreiheit und sein Engagement, die Zensur auf X zu reduzieren, noch weiter gestärkt (ein Ansatz, der Kritik auf sich zieht, weil er Toxizität auf der Plattform ermöglicht).
Gleichzeitig bietet eine entspanntere Inhaltsmoderation auch mehr Freiheit für die Nutzer, da Grok Fragen beantworten und Bilder generieren kann, die andere Sprachmodelle vermeiden.
Andererseits wird dadurch die Möglichkeit eröffnet, kontroversere und potenziell unethische Inhalte zu erstellen, wie z. B. die Verwendung des Grok 2-Bildgenerators zur Erzeugung von Deepfakes von Personen des öffentlichen Lebens.
The Hustle 🔫🔥
Somebody said uncensored? Thank you @grok for letting us all have some fun 🙌💯
Note: We don't hold any political stance, just having some fun 😊 @elonmusk#GROK #GROK2 #grokimages #Grok2images pic.twitter.com/w5y428fVJ9
— The Dor Brothers (@thedorbrothers) August 21, 2024
Derzeit sind Grok-2 und Grok-2 mini in der Beta-Phase auf X für Premium-Abonnenten verfügbar.
Außerdem hat der Konzern Pläne bekannt gegeben, beide Modelle über die Unternehmens-API verfügbar zu machen.
Wie Grok 2 die Lücke schließt
Laut dem angekündigten Blogbeitrag bewertet xAI die Leistung der Modelle durch den Einsatz von KI-Tutoren.
Diese analysieren die von Grok generierten Antworten und wählen die beste davon anhand von Kriterien aus, die in den Richtlinien des Unternehmens festgelegt sind.
Die Modelle werden in zwei Hauptbereichen bewertet: ihre Fähigkeit, Anweisungen zu befolgen und genaue Sachinformationen zu liefern.
Nach Angaben des Unternehmens „hat Grok-2 dank dieses Ansatzes signifikante Verbesserungen bei der Auswertung der abgerufenen Inhalte und bei der Nutzung des Tools gezeigt, z. B. bei der korrekten Identifizierung fehlender Informationen, bei der Erkennung von Ereignisabfolgen und beim Aussortieren irrelevanter Beiträge“.
Aus der Außenperspektive scheint diese Art der Evaluierung eine gewisse Qualitätskontrolle der Ergebnisse von Grok-2 zu bieten, aber es muss immer noch gegen Fehlinformationen vorgegangen werden.
Anfang dieses Monats hatten Wahlbeamte in Michigan, Minnesota, New Mexico, Pennsylvania und Washington einen Brief an Musk geschickt, in dem sie davor warnten, dass Grok falsche Informationen über die Fristen für die Stimmabgabe in den Bundesstaaten nach Bidens Ausscheiden aus dem Präsidentschaftswahlkampf geliefert hatte.
Was Grok noch nicht kann
Trotz seiner Erfolge ist Grok nicht perfekt. Derzeit ist es nur für X-Premium-Abonnenten verfügbar, und es hat immer noch all die grundlegenden Mängel, die die meisten LLMs haben, wie z. B. eine Tendenz zu Halluzinationen und Fehlinformationen. Außerdem liegt es in Bezug auf die Leistung leicht hinter GPT-4o und Gemini 1.5 Pro zurück.
Ein weiteres großes Manko ist die fehlende Spracheingabe, wie sie bei Modellen wie GPT-4o und Gemini möglich ist. So muss man sie in Form von Text machen, was zwar nicht das Ende der Welt ist, aber das Nutzererlebnis doch etwas einschränkt.
Unklar ist außerdem, wie die Beiträge von X kuratiert werden. X ist für Toxizität bekannt, und es besteht die Möglichkeit, dass ein Teil der Toxizität und Bias in den Beiträgen der Nutzer in Grok selbst durchsickern könnte (obwohl dies auch auf die Entscheidung von OpenAI zur Integration von ChatGPT mit Reddit zutrifft).
Zwar könnten diese Bedenken teilweise dadurch ausgeräumt werden, dass das Modell mit Inhalten von verifizierten Konten mit vielen Impressionen und viel Engagement trainiert wird, doch können sie wohl kaum vollständig ausgeräumt werden.
Wie man Grok 2 nutzen kann
Wer Grok 2 nutzen möchte, benötigt ein X Premium-Konto. X bietet lokalisierte Preise ab 3 $ pro Monat oder 32 $ pro Jahr. Eine vollständige Preisliste nach Land finden Sie hier.
Sobald man ein X-Premium-Abo abgeschlossen hat, erhält man Zugriff auf den Chatbot. Einfach auf die Registerkarte Grok auf der X-Plattform klicken.
Zu Beginn der Nutzung von Grok geben Sie lediglich Ihren Prompt in das Textfeld ein und drücken die Eingabetaste. Hier sind einige Ideen für den Anfang:
- Eine Frage zu einem Thema stellen – Wann war [X]?, Wer hat [X] erfunden?, Was ist [X]?
- Inhalte erzeugen – Schreib einen Artikel oder Blogbeitrag über [THEMA EINFÜGEN]
- Bilder erstellen – Erstelle ein Bild von [THEMA EINFÜGEN]
- Nach einem Witz fragen – Erzähle mir einen Witz über [THEMA EINFÜGEN]
Falls Sie unsicher sind, was Sie Grok fragen sollen, finden Sie unter der Prompt-Leiste einige Unterhaltungen, die Sie anklicken können, um automatisch einen Prompt in den Chatbot einzugeben.
Fazit
Für viele ist Grok 2 schnell zum bevorzugten LLM geworden. Mit den verbesserten multimodalen Fähigkeiten und der Bilderstellung verfügt xAI über alle wichtigen Zutaten, um Nutzer zu gewinnen, die von OpenAI oder Googles Ansatz der Inhaltsmoderation genug haben.