In den letzten 12 Monaten sind große Sprachmodelle (Large Language Models, LLMs) zum Hauptthema im Bereich der generativen KI geworden.
Doch hinter dem Rummel um proprietäre LLMs wie ChatGPT und Google Bard haben kleine Sprachmodelle (engl. Small Language Models, SLMs) im Stillen das Interesse der Branchenführer geweckt.
Anfang dieses Monats kündigte Microsoft die Veröffentlichung von Phi-2 an, einem SLM mit 2,7 Milliarden Parametern und „herausragenden“ Fähigkeiten in Sachen Schlussfolgerungen und Sprachverständnis.
Berichten zufolge hat dieses Modell die beste Leistung unter Modellen mit weniger als 13 Milliarden Parametern erreicht und kann gleichzeitig 25-mal größere Modelle übertreffen.
Als Google das viel erwartete multimodale LLM Gemini einstellte, ging es auch darum, die leichtgewichtige Version Gemini Nano einzubinden, die zwischen 1,8 Milliarden und 3,25 Milliarden Parameter hat und für Aufgaben auf dem Gerät konzipiert ist.
Warum wollen Anbieter wie Microsoft und Google kleinere, aber rechenintensivere Sprachmodelle für ihre Kunden entwickeln? Dafür gibt es viele Gründe, aber der vielleicht wichtigste ist der Kostenfaktor.
Die Kosten für LLMs
Die Kosten sind einer der größten Knackpunkte beim Training und Betrieb eines LLM. Grafikprozessoren (engl. Graphics Processing Units, GPUs), die für moderne LLMs benötigt werden, sind teuer in der Anschaffung und Bedienung.
Im Allgemeinen gilt: Je mehr Parameter ein Modell hat, desto mehr Rechenleistung und GPUs sind für seinen Betrieb erforderlich.
Das bedeutet, dass es für Unternehmen nicht nur teuer ist, ihre eigenen LLMs zu trainieren, sondern auch, bereits trainierte LLMs zu verwenden.
Nach Angaben von OpenAI beginnen die Preise für ein benutzerdefiniertes GPT-4-Modell bei 2 bis 3 $ Millionen. Das Training kann mehrere Monate dauern und erfordert „mindestens Milliarden von Token“.
Es ist zwar nicht bekannt, wie viel das Training von GPT-4 gekostet hat, aber nach Schätzungen einiger Analysten könnte die Summe für das Vorgängermodell GPT-3 über 4 $ Millionen betragen haben, während andere davon ausgehen, dass die Betriebskosten für ChatGPT bei bis zu 700.000 $ pro Tag liegen könnten.
Obwohl diese Zahlen hoch erscheinen, können die Ausgaben für die Entwicklung eines LLM weitaus beträchtlicher sein.
Dr. Jim Fan, ein leitender KI-Wissenschaftler bei Nvidia, beziffert zum Beispiel die Kosten für das Training von Llama 2 auf über 20 $ Millionen, das allerdings GPT-3.5 nicht übertraf.
You'll soon see lots of "Llama just dethroned ChatGPT" or "OpenAI is so done" posts on Twitter. Before your timeline gets flooded, I'll share my notes:
▸ Llama-2 likely costs $20M+ to train. Meta has done an incredible service to the community by releasing the model with a… pic.twitter.com/MrABHrmACv
— Jim Fan (@DrJimFan) July 18, 2023
Unabhängig davon, ob diese Schätzwerte zutreffend sind oder nicht, ist es unbestreitbar, dass das Training oder der Betrieb eines LLM eine erhebliche finanzielle Investition erfordert.
Deshalb bemühen sich Anbieter wie Microsoft um einen geringeren Rechenaufwand.
Phi-2 und die SLM-Bewegung
SLMs gewinnen auf dem Markt für generative KI zunehmend an Bedeutung: Zur Generierung von Erkenntnissen benötigen sie weniger Rechenleistung als LLMs und können daher kostengünstiger arbeiten.
Während GPT-4 Gerüchten zufolge auf 25.000 Nvidia A100 GPUs über einen Zeitraum von 90–100 Tagen trainiert wurde, dauerte das Training von Phi-2 auf 96 A100 GPUs nur 14 Tage.
Obwohl sie nicht das Leistungsniveau von GPT-4 erreicht hat, konnte die Lösung in mehreren Benchmarks die größeren Modelle übertreffen.
Vor allem in den Bereichen BBH, logisches Denken, Sprachverständnis (nur Llama 2), Mathematik und Codierung schneidet sie besser ab als Modelle wie Mistral 7B und Llama 2.
Auch bei mehreren Benchmarks, darunter BBH, BoolQ, MBPP und MMLU, zeigt Phi-2 eine bessere Leistung als Gemini Nano 2.
Wenn man bedenkt, dass Phi-2 in bestimmten Benchmarks mit Llama 2 70B gleichgezogen oder es sogar überflügelt hat, ist es offensichtlich, dass SLMs Modelle bei Denkaufgaben übertreffen können, selbst wenn sie mehr Parameter haben. Aber wie?
Wie Trainingsdaten Phi-2 zum Erfolg verhelfen
Am Beispiel von Phi-2 hat Microsoft deutlich gemacht, dass einer der wichtigsten Faktoren für den Erfolg eines SLM die Qualität der Trainingsdaten ist.
Je besser die Qualität der in das Modell einfließenden Daten ist, desto höher ist seine Gesamtleistung.
Bei Phi-2 hat Microsoft Trainingsdaten in „Lehrbuchqualität“ verwendet, die synthetische Datensätze enthalten, um dem Modell logisches Denken und Allgemeinwissen beizubringen (Wissenschaft, tägliche Aktivitäten, Theory of Mind).
Diese synthetischen Daten werden dann mit Webdaten kombiniert, die „nach Bildungswert und Inhaltsqualität gefiltert“ wurden.
Bemerkenswert ist, dass Phi-2 noch keine Anpassung durch Reinforcement Learning oder Feinabstimmung durchlaufen hat. Daher besteht die Möglichkeit, dass seine Leistung durch diese Maßnahmen weiter verbessert wird.
In jedem Fall zeigen die ersten Ergebnisse, dass Modelle mit weniger Parametern mit Modellen mit vielen Parametern konkurrieren können, sofern sie auf sorgfältig kuratierten, hochwertigen Datensätzen trainiert werden.
Fazit
Obwohl SLMs noch weit davon entfernt sind, die Fähigkeiten führender LLMs wie GPT-4 zu erreichen, deutet die Leistung von Phi-2 gegenüber Llama 2 70B bei schlussfolgernden Aufgaben darauf hin, dass sich diese Lücke schließt.
Unternehmen, die generative KI auf einer kostengünstigeren und rechenintensiveren Basis nutzen wollen, können SLMS als potenzielle Alternative in Betracht ziehen.