Anfang dieser Woche veröffentlichte Meta Llama 2, ein neues quelloffenes Large Language Model (LLM), dessen Code von Forschern eingesehen werden kann, was einige zu Spekulationen veranlasste, dass die Lösung ChatGPT schließlich entthronen könnte.
Die Organisation hofft, dass eine größere Transparenz die Entwicklung der generativen KI in Zukunft beschleunigen wird.
“Wir glauben, dass ein offener Ansatz der richtige für die Entwicklung der heutigen KI-Modelle ist”, heißt es in der Ankündigung im Blog.
“Die Öffnung des Zugangs zu den heutigen KI-Modellen bedeutet, dass eine Generation von Entwicklern und Forschern diese unter Stressbedingungen testen kann, um Probleme schnell zu identifizieren und zu lösen. Indem wir sehen, wie diese Tools von anderen genutzt werden, können unsere eigenen Teams von ihnen lernen, diese Tools verbessern und Schwachstellen beheben.”
Die Nachricht kommt kurz nachdem Anthropic die Veröffentlichung von Claude 2 am 11. Juli angekündigt hat. Aber was genau bedeutet die Veröffentlichung von Meta für OpenAI?
Wie schneidet Llama 2 ab?
Obwohl Llama 2 nicht in der Lage ist, ChatGPT in absehbarer Zeit zu entthronen, hat Llama 2 doch einige entscheidende Unterschiede.
Llama 2 ist ein LLM, das darauf ausgelegt ist, öffentlich verfügbare Daten zu verarbeiten, um Text und Code zu generieren und dabei weniger Rechenleistung und Ressourcen zu verbrauchen. Llama 2 wurde auf 40 % mehr Daten als die erste Ausgabe trainiert und enthält mehr als zwei Billionen Token sowie eine Million neuer menschlicher Annotationen. Außerdem ist es kostenlos, bis eine Organisation 700 Millionen monatlich aktive Nutzer freigibt.
Das LLM bietet drei Stufen von Parametern (Faktoren, die KI-Systeme aus Trainingsdaten lernen können), die von menschlichen Bewertern überprüft werden:
- 7 Milliarden Parameter
- 13 Milliarden Parameter
- 70 Milliarden Parameter
Dies liegt zwar unter den 175 Milliarden Parametern von GPT 3.5, aber beim Massive Multitask Language Understanding (MMLU), einem Bewertungssystem zur Beurteilung der Problemlösungsfähigkeiten von Sprachmodellen, ist der Abstand viel geringer.
So liegt Llama 2 mit einem MMLU-Wert von 68,9 nur knapp hinter dem Wert von GPT 3.5 (70,0). Obwohl dies weit von der 86,4er-Bewertung von GPT4 entfernt ist, ist es nahe genug, um Llama 2 als einen brauchbaren Open-Source-Konkurrenten zu GPT 3.5 zu positionieren.
Es ist auch erwähnenswert, dass die Trainingsdaten von Llama 2 einen Stichtag von September 2022 haben, aber auch Tuning-Daten von Juli 2023 enthalten. GPT 3.5 hingegen wurde mit Daten bis September 2021 trainiert. Das bedeutet, dass Llama 2 aktuellere Daten bietet als sein OpenAI-Pendant.
Llama 2-Chat: Metas Geheimwaffe?
Eines der vielversprechendsten Elemente der Veröffentlichung war jedoch die Einführung von Llama 2-Chat, einer Version von Llama 2, die speziell für “Dialog-Anwendungsfälle” entwickelt wurde. Diese auf Chats ausgerichtete Version des Tools wurde feinabgestimmt, um die Toxizität und Genauigkeit zu verringern.
Metas Whitepaper zur Einführung erklärt:
“Der Prozentsatz der toxischen Generationen schrumpft beim Llama 2-Chat in allen Größen auf effektiv 0 %: dies ist der niedrigste Toxizitätswert aller verglichenen Modelle. Im Allgemeinen zeigt das fein abgestimmte Llama 2-Chat im Vergleich zu Falcon und MPT die beste Leistung in Bezug auf Toxizität und Wahrheitsgehalt.”
Die Konzentration auf die Abschwächung der Toxizität ist ein entscheidender Punkt der Differenzierung, da andere LLMs wie ChatGPT wegen ihrer Fähigkeit, beleidigende Inhalte zu generieren, kontrovers diskutiert wurden.
Der Einsatz von Red Teaming durch die Organisation zur Feinabstimmung ihrer Modelle und zur Suche nach Wegen zur Generierung gegnerischer Prompts hat nicht nur das Potenzial, die Fähigkeiten von Llama 2 zu steigern, sondern auch das Vertrauen in die Ergebnisse von LLMs zu erhöhen, die bisher von Halluzinationen und der Tendenz, Informationen zu erfinden, geplagt waren.
Ist es also vorbei für ChatGPT?
Obwohl die Einführung von Llama 2 dem Markt sicherlich eine neue Ebene des Wettbewerbs hinzufügt, ist ChatGPT noch nicht am Ende.
Wie Dr. Jim Fan, leitender KI-Wissenschaftler bei Nvidia, auf Twitter schrieb, ist Llama-2 noch nicht auf GPT-3.5-Niveau, hauptsächlich wegen seiner schwachen Kodierungsfähigkeiten”. Fan sagte auch, dass er “wenig Zweifel daran hat, dass sich Llama-2 dank seiner offenen Gewichte deutlich verbessern wird.”
You'll soon see lots of "Llama just dethroned ChatGPT" or "OpenAI is so done" posts on Twitter. Before your timeline gets flooded, I'll share my notes:
▸ Llama-2 likely costs $20M+ to train. Meta has done an incredible service to the community by releasing the model with a… pic.twitter.com/MrABHrmACv
— Jim Fan (@DrJimFan) July 18, 2023
Sogar Metas eigenes Whitepaper gibt zu, dass Llama 2 hinter Modellen wie GPT-4 zurückbleibt, obwohl es GPT 3.5 sehr nahe kommt.
Der eigentliche Pluspunkt von Llama 2 ist die Tatsache, dass es quelloffen ist, was nicht nur einen Blick hinter den Vorhang auf die Funktionsweise des Modells ermöglicht, sondern auch unabhängigen Forschern die Möglichkeit gibt, mit der Feinabstimmung zu beginnen und Verzerrungen oder Toxizität zu mindern.
Während Blackbox-KI-Lösungen für die Feinabstimmung ihrer Modelle auf interne Forscher angewiesen sind, können Open-Source-Tools auf einen breiteren Talentpool innerhalb einer ganzen Nutzergemeinschaft zurückgreifen.
Das bedeutet, dass Unternehmen und Entwickler, die einen offeneren Ansatz für die KI-Entwicklung suchen, sich in Zukunft an Meta wenden könnten, um diese Anforderungen besser zu erfüllen.
Mehr Transparenz bei der KI-Entwicklung
Obwohl Llama 2 nicht in der Lage ist, GPT4 zu verdrängen, hat es bisher gezeigt, dass es in bestimmten Bereichen mit GPT 3.5 konkurrieren kann.
Vor allem aber hat die Veröffentlichung von Llama 2 gezeigt, dass ein Open-Source-Ansatz für die KI-Entwicklung realisierbar ist, und den Grundstein für eine gemeinschaftsweite Anstrengung zur Feinabstimmung von KI-Modellen in der Zukunft gelegt.