GoogleのGemmaとは?
Googleは、先日に行ったGemini AIのアップデート後すぐに、Gemmaと呼ばれる新しいオープンソース言語モデルを発表しました。
Gemmaは、Google社の技術者がGeminiモデルを開発する際に使用した研究成果に基づいて構築されたText-to-Textのモデルで、20億または70億のパラメータを持つバージョンです。
Gemmaのようなオープンモデルのリリースは、2023年にMetaがLLaMAという大規模言語モデルを公開した際と同様、オープンソースコミュニティの力を活用しようとする試みです。なお、LLaMAはこれまでに3000万件以上のダウンロードがあり、3500を超える企業で使用されています。
GoogleのGemmaの特徴
Googleは以下のように発表しています。
Gemmaモデルは技術的基盤やインフラストラクチャ基盤をGeminiと共有しており、現在利用可能なAIモデルの中で、最大かつ最も高性能です。Gemma 2Bおよび7Bは他のオープンソースモデルと比較してサイズに対する性能が最上位クラスとなります。また、Gemmaはデベロッパーのノートパソコンやデスクトップで直接使用することができます。
Gemmaモデルはウェブ文書、コード、数学を含む6兆トークンのテキストデータで学習されました。GoogleによればGemmaは質問応答、要約、推論などのテキスト生成タスクでLlama 2Bなどの大規模モデルよりも優れた性能を発揮しています。
Gemmaのリリースは、GoogleがGemini 1.5を発表してから1週間足らず、GeminiファミリーのLLMを発売してからわずか3カ月足らずのことでした。
LLM業界におけるGoogleのGemmaのポジション
Google DeepMindの共同創設者兼CEOであるデミス・ハサビスは、次のように述べています。
私たちは長年に渡りオープンソースと科学の発展に尽力してきました。より迅速な研究活動を実現できるようになるため、Geminiの開発で用いた最先端の軽量オープンモデル「Gemma」を誇りを持ってリリースします。
一方で、Googleは完全にオープンソースということではなく、パラメータのみ公開し、ソースコードや学習データは非公開のままです。
また、GemmaはGeminiとは異なり、テキスト、音声、画像などのマルチモーダル入力に対応したモデルではなく、テキスト入力からテキスト出力を扱うモデルです。
さらに計算リソースを抑えた軽量設計のため、ノートパソコン、ワークステーション、Google CloudのVertex AIやKubernetes Engineなどのクラウド環境でも実行可能。Geminiよりデバイス上でのアプリケーションに適しています。
Gemmaと・Llama 2・Mistral 7Bの比較
オープンソースコミュニティにおいて、Gemmaのメインな競合はLlama 2とMistral 7Bの2つです。Llama 2とMistral 7Bは、最高性能を誇るオープンソースの大規模言語モデル(LLM)として知られています。
しかし、Googleの発表した研究結果によれば、Gemmaは問題解決、推論、数学、コーディングのタスクにおいて、他の2つのモデルを上回る性能を示しています。
以下にベンチマークテストの一部を示します。
ベンチマーク | Gemma 7B | Mistral 7B | Llama 2 7B | Llama 2 13B |
MMLU(一般的タスク) | 64.3 | 62.5 | 45.3 | 54.8 |
BBH(多段階推論) | 55.1 | 56.1 | 32.6 | 39.4 |
HellaSwag(常識推論) | 81.2 | 81.0 | 77.2 | 80.7 |
GSM8K(基本算数と小学校数学の問題) | 46.4 | 35.4 | 14.6 | 28.7 |
MATH(難解な数学問題、代数幾何、微積分) | 24.3 | 12.7 | 2.5 | 3.9 |
HumanEval(Pythonコード生成) | 32.3 | 26.2 | 12.8 | 18.3 |
Gemmaの結果は全体的に安定しており、特にコーディングと数学のタスクでMistral 7B、Llama 2を大きく上回りました。
GPT-4(ChatGPT)やGeminiのような最先端モデルには及びませんが、そこまでの必要はありません。Gemmaは計算効率が高く、軽量ながら高性能なモデルを実現し、研究者がハイスペックなサーバーを使わずとも自身のラップトップ上で実験できるようになったためです。
責任あるAIとGemmaの課題
オープンモデルのリリースには課題も伴います。研究者がGemmaを正しい用途で自由に使える一方で、悪用される可能性も生まれるためです。
オープンソースの言語モデルに限った話ではありませんが、モデルが誤情報や有害なコンテンツを生成するリスクが生じます。
MITによる有名な研究では、「Llama 2 70Bモデルの”Spicy”というバージョンが、1918年のインフルエンザウイルスを入手・公開する方法を収集するために使われる可能性がある。」と指摘されています。
同研究は「モデルのコードとパラメータが公開されれば、セーフガードの削除や、特定の知識を強化して一般人が簡単に使えるようなファインチューニングを防ぐのはほぼ不可能になる」と主張しています。
他のコメンテーターも、オープンソースAIのリスクについて警告しています。AppOmniの人工知能(AI)部門のディレクターであるMelissa RuzziはTechopediaに対し、次のように述べています。
Gemmaのような強力なオープンソースAIモデルは素晴らしいアイデアのように思えますが、国家レベルのサイバー犯罪組織がAIを悪用している研究が示すように、悪意のある者に力を与える可能性もあります。私たちは生産性向上のためにAIを活用する方法を模索しなければなりません。十分な規制を設けることはほぼ不可能であり、その状況でも機能するモデルを開発することは、今後解決すべきオープンソースAIモデルで最大の課題です。
いずれにしても、Googleは有害コンテンツ、違法コンテンツ、個人情報、ポリシー違反するテキストを削除するため、CSAM(児童搾取防止)フィルタリング、機密データフィルタリング、コンテンツ品質フィルタリングの組み合わせを使用し、悪用を防ぐ対策を講じています。
しかし、これらの対策が悪用防止に十分かどうかはまだ分かりません。
まとめ
Gemmaのリリースにより、GoogleのAIエコシステムはさらに深化しましたが、真の恩恵を受けるのはオープンソースコミュニティでしょう。研究者らはGemma、Llama 2、そしてMistral 7Bを使って新しいソリューションの開発・実験が可能になったためです。
このオープンソースエコシステムが成熟するにつれて、より強力な大規模言語モデル(LLM)が開発され、オープンソースとクローズドソースのAIのギャップが縮まっていくと考えられます。
Gemmaのような言語モデルが良いことに使われるか、悪用されるかは、現時点ではオペレーター次第となります。