Transparenz

Was bedeutet Googles Gemma für den KI-Markt?

Ohne eine Verschnaufpause von seinen jüngsten Gemini KI-Updates einzulegen, hat Google die Veröffentlichung einer neuen Familie von quelloffenen Sprachmodellen namens Gemma angekündigt.

Gemma ist ein Text-zu-Text-Modell. Es wurde mit denselben Forschungsergebnissen entwickelt, die auch für die Gemini-Modelle des Tech-Giganten verwendet wurden, und ist als 2B- oder 7B-Parameter-Version erhältlich.

Die Entscheidung von Google für die Einführung eines quelloffenen Modells stellt im Grunde einen Versuch dar, aus der Reichweite der Open-Source-Gemeinschaft Kapital zu schlagen, so wie es Meta im Jahr 2023 mit der Veröffentlichung des großen Sprachmodells (LLaMA) getan hat.

Letzteres wurde seither 30 Millionen Mal heruntergeladen und ist in mehr als 3.500 Unternehmensprojekten eingesetzt worden.

Wichtigste Erkenntnisse

  • Googles Gemma-Reihe offener Sprachmodelle folgt auf die jüngsten KI-Updates von Gemini.
  • Das LLM gibt es in Versionen mit 2B- oder 7B-Parametern, es ist für Text-zu-Text-Aufgaben konzipiert und kann auf PCs ausgeführt werden.
  • Gemma-Modelle, die auf einem Datensatz mit 6 Billionen Token trainiert wurden, zeichnen sich bei Aufgaben wie der Beantwortung von Fragen und der Zusammenfassung aus und übertreffen dabei Modelle ähnlicher Größe.
  • Obwohl Gemma als offenes Modell beworben wird, hat Google nur die Parameter, nicht aber den vollständigen Quellcode und die Trainingsdaten veröffentlicht.
  • Trotz ihres Nutzens gibt es Bedenken hinsichtlich des möglichen Missbrauchs zur Erzeugung von Fehlinformationen oder schädlichen Inhalten.

In der Ankündigung von Google heißt es: „Gemma-Modelle teilen technische und infrastrukturelle Komponenten mit Gemini, unserem größten und leistungsfähigsten KI-Modell, das heute weithin verfügbar ist.“

„Dadurch erreichen Gemma 2B und 7B im Vergleich zu anderen offenen Modellen die klassenbeste Leistung für ihre Größe. Außerdem können Gemma-Modelle direkt auf einem Entwickler-Laptop oder einem Desktop-Computer ausgeführt werden.“

Die Modelle wurden auf einem Datensatz mit 6 Billionen Text-Token trainiert, darunter Webdokumente, Code und Mathematik, und übertrafen laut Google die Leistung größerer Modelle wie Llama 2 bei der Texterstellung, einschließlich der Beantwortung von Fragen, Zusammenfassungen und Schlussfolgerungen.

Dieses Release kam weniger als eine Woche nach der Veröffentlichung von Googles Gemini 1.5 – und nicht einmal drei Monate nach der Einführung der LLM-Familie Gemini.

Welchen Platz nimmt Gemma im Bereich der LLMs ein?

Demis Hassabis, Mitbegründer und CEO von Google DeepMind, sagte: „Wir unterstützen seit langem verantwortungsvolle Open-Source- und Wissenschaftsprojekte, die schnelle Forschungsfortschritte ermöglichen, und sind stolz darauf, Gemma zu veröffentlichen: eine Reihe von schlanken, offenen Modellen, die für ihre Größe die besten ihrer Art sind und von der gleichen Technologie inspiriert sind, die für Gemini verwendet wurde.“

In diesem Zusammenhang ist darauf hinzuweisen, dass das Modell nicht vollständig quelloffen ist. Google hat lediglich die Parameter, nicht aber den Quellcode und die Trainingsdaten veröffentlicht.

Auf den ersten Blick unterscheidet sich Gemma von Gemini, weil es sich um ein Text-zu-Text-Modell handelt und nicht um ein multimodales Modell, das Eingaben in Form von Text, Sprache und Bildern verarbeiten kann.

Außerdem ist es rechnerisch leichter, d. h. es kann auf einem Laptop, einer Workstation oder in einer Cloud-Umgebung wie Google Cloud über Vertex AI und Google Kubernetes Engine ausgeführt werden.

Damit ist sie besser für Anwendungen auf Geräten geeignet als Gemini.

Gemma vs. Llama 2 und Mistral 7B

Wenn es um den Platz von Gemma in der Open-Source-Community geht, gibt es zwei Hauptkonkurrenten: Llama 2 und Mistral 7B.

Jedes dieser Modelle hat sich einen Ruf als eines der leistungsstärksten Open-Source-LLMs erworben.

Eine von Google veröffentlichte Studie zeigt aber, dass Gemma in kritischen Bereichen wie der Beantwortung von Fragen, dem logischen Denken, der Mathematik und den Codierungsaufgaben besser abschneidet als die anderen Modelle.

Im Folgenden sind einige der Testergebnisse aufgeführt:

Benchmark  Gemma 7B  Mistral 7B  Llama 2 7B  Llama 2 13B 
MMLU (Allgemein) 64,3  62,5  45,3  54,8 
BBH (Mehrstufige Argumentationsaufgaben) 55,1  56,1  32,6  39,4 
Benchmarking: Vernünftiges Denken 81,2  81,0  77,2  80,7 
GSM8K (Einfache arithmetische und mathematische Grundschulaufgaben) 46,4  35,4  14,6  28,7 
MATH (Anspruchsvolle mathematische Probleme, Algebra, Geometrie, Vorkalkulation) 24,3  12,7  2,5  3,9
HumanEval (Generierung von Python-Code) 32,3  26,2  12,8  18,3 

Gemmas Ergebnisse waren durchweg solide, aber besonders beeindruckend bei Codierungs- und Mathematikaufgaben, wo das Modell deutlich besser abschnitt als Mistral 7B und Llama 2.

Es ist zwar nicht so leistungsfähig wie LLMs von GPT-4 oder Gemini, aber das ist auch nicht erforderlich.

Schließlich bietet es ein leichtes, rechnerisch effizientes und leistungsstarkes Modell, mit dem Forscher auf ihren Laptops experimentieren können, ohne ein ganzes Datenzentrum mit kostspieligen Servern betreiben zu müssen.

Verantwortungsvolle KI und potenzielle Herausforderungen

Die Veröffentlichung eines offenen Modells ist nicht ohne Bedenken.

Schließlich dürfen nicht nur Forscher mit Gemma für legitime Anwendungsfälle experimentieren, sondern es besteht auch die Gefahr, dass das Modell für kriminelle Zwecke missbraucht wird.

So könnte es zur Erzeugung von Fehlinformationen und schädlichen Inhalten verwendet werden (obwohl dieses Risiko nicht nur auf offene LLMs beschränkt ist).

In einer bemerkenswerten Studie von MIT-Forschern wurde beschrieben, wie eine „Version des Llama 2 70B-Modells mit dem Spitznamen ‚Spicy’ zum Sammeln von Informationen über die Beschaffung und Freisetzung des Grippevirus von 1918 eingesetzt werden konnte“.

In der Untersuchung wird argumentiert, dass „sobald der Mustercode und die Gewichte veröffentlicht sind, es nahezu unmöglich ist, die Akteure an einer Feinabstimmung zu hindern, entweder um Sicherheitsvorkehrungen zu beseitigen oder um spezifisches technisches Wissen so zu erweitern, dass dieses Wissen von Laien leichter genutzt werden kann“.

Auch andere Kommentatoren warnen vor den Risiken von Open-Source-KI. Melissa Ruzzi, Direktorin für künstliche Intelligenz bei AppOmni, erklärte gegenüber Techopedia:
„Open-Source-KI-Modelle klingen nach einer großartigen Idee, besonders wenn sie so leistungsfähig sind wie Gemma, das auf der Grundlage von Gemini entwickelt wurde. Aber sie können auch die Macht böswilliger Akteure stärken, wie Untersuchungen zeigen, die belegen, dass staatliche Cyberkriminelle KI bei Angriffen einsetzen und dass Bedrohungsakteure erforschen, wie KI ihnen bei der Steigerung ihrer Produktivität helfen kann.“

„Es ist fast unmöglich, genügend Kontrollen zu implementieren, um dies zu verhindern und trotzdem ein funktionierendes Modell zu haben. Dies ist das größte Problem, das es bei Open-Source-KI-Modellen zu lösen gilt.“

In jedem Fall hat Google zur Verhinderung von Missbrauch eine Mischung aus CSAM-Filterung, Filterung sensibler Daten und Inhaltsqualitätsfilterung eingesetzt, um schädliche/illegale Inhalte, persönliche Informationen oder jeglichen Text zu entfernen, der gegen die Content-Moderationsrichtlinien des Unternehmens verstoßen könnte.

Ob diese Sicherheitsvorkehrungen zum Schutz vor Missbrauch ausreichend sind, bleibt abzuwarten.

Fazit

Die Markteinführung von Gemma vertieft Googles KI-Produkt-Ökosystem, aber der wahre Gewinner ist die Open-Source-Community. Forscher können nun mit Gemma, Llama 2 und Mistral 7B experimentieren und neue Lösungen entwickeln.

Mit der Reifung dieses Open-Source-Ökosystems werden wahrscheinlich immer leistungsfähigere LLMs entstehen, die die Lücke zwischen Open- und Closed-Source-LLMs schließen werden.

Wie immer liegt die Entscheidung, ob diese für gute oder schlechte Zwecke eingesetzt werden, in den Händen des Betreibers, zumindest im Moment.

Verwandte Begriffe

Tim Keary
Tech Experte

Seit Januar 2017 arbeitet Tim Keary als freiberuflicher Technologie-Autor und Reporter für Unternehmenstechnologie und Cybersicherheit.