小規模言語モデル(SLM)とは

信頼の理由

ここで言う「スモール」とは、モデルのニューラルネットワークのサイズ、モデルが判断に使用するパラメーターの数、モデルが学習するデータの量を指します。

SLMは、大規模言語モデル(LLM)よりも少ない計算パワーとメモリで動きます。そのため、オンプレミスやオンデバイス、モバイルデバイスでの展開に適しています。

小規模言語モデル(SLM)と大規模言語モデル(LLM)の比較

ChatGPTやGoogle Bardのような大規模言語モデル(LLM)は、多くのリソースを消費します。複雑なディープラーニングアーキテクチャを持ち、膨大な量の学習データと大量のストレージを必要とし、驚くほど多くの電力を消費します。

ここが、小規模言語モデル(SLM)と大規模言語モデル(LLM)の大きな違いです。

最近までこのようなリソース要件は参入障壁となり、急速に発展する人工知能(AI)市場において、大手テクノロジー企業が優位に立つ要因となっていました。しかし低コストで開発できる小規模言語モデル(SLM)の登場により、こうした障壁が低くなり、スタートアップやその他の中小企業が独自の言語モデルを開発・展開できるようになりました。

小規模言語モデル(SLM)のメリットとデメリット

小規模言語モデル(SLM)は比較的小さなデータセットで学習することができます。そのシンプルなアーキテクチャは一般的に計算リソースの使用量が少ないため、アルゴリズムや動作原理を理解しやすくなっています。また、フットプリントが小さいためメモリやストレージの消費が少なく、モバイルデバイスやリソースの限られた環境でも展開可能です。

小規模言語モデル(SLM)の主なメリットの一つは、データをローカルで処理できるように設計できることです。これは、IoTエッジデバイスや厳格なプライバシーポリシーおよびセキュリティポリシーに準拠する必要がある企業にとって、特に重要です。

しかし、小規模言語モデル(SLM)の導入にはデメリットもあります。SLMは小さなデータセットで学習されるため、その知識ベースは大規模言語モデル(LLM)に比べて制限されてしまうのです。また、言語や文脈の理解が狭いため、LLMと比較すると応答が正確さに欠けたり、ニュアンスが不足することがあります。

小規模言語モデル(SLM) 大規模言語モデル(LLM)
サイズ 1,500万以下のパラメーターを持つことができる 何千億ものパラメーターを持つ
計算要件 モバイル機器のプロセッサを使用できる 数百のGPUプロセッサを必要とする可能性がある
パフォーマンス 簡単な仕事はこなせる 複雑で多様な仕事に対応できる
配備 リソースに制約のある環境への導入が容易 配備には多くの場合、大規模なインフラが必要である
トレーニング 1週間で訓練可能 訓練には数か月かかることがある

小規模言語モデルと特化型言語モデルの違い

SLMという頭字語は「small language model」(小規模言語モデル)」や

「specialized language model(特化型言語モデル)」の略であるため、混乱を招くことがあります。

さらに、多くの小規模言語モデルが特化型言語モデルとしての特徴を持っていることも、混乱を招く要因のひとつです。両者ともに、特定の目的に合わせてパフォーマンスを最適化するために設計されています。

特化型言語モデルは、特定のタスクやドメインに対して特別に訓練・微調整されており、法律用語や医療診断などの特定の領域で優れた性能を発揮します。

混乱を避けるためには、小規模言語モデルの特徴を覚えておくことが重要です。

  • 使用するパラメーターの数
  • フットプリントのサイズ
  • トレーニングに必要なデータ量

特化型言語モデルは、そのトピックやドメインによって特徴付けられます。すべての小規模言語モデルが特化型というわけではなく、多くの特化型言語モデルは非常に大規模であることを覚えておくとよいでしょう。

小規模言語モデル(SLM)の例

DistilBERT:先駆的な自然言語処理(NLP)モデルであるBERTの、小型で高速、かつ軽量なバージョンです。

Orca 2:マイクロソフトは、メタ社のLlama 2を高品質な合成データで微調整することでOrca 2を開発しました。このアプローチにより、マイクロソフトは特にゼロショット推論タスクにおいて、大規模モデル(LLM)と同等か、それを上回るパフォーマンスを達成することができました。

Phi 2:マイクロソフトがリリースしたPhi 2は、クラウドやエッジ環境での利用を目的として設計された、高効率で汎用性の高いトランスフォーマーベースの小規模言語モデル(SLM)です。このモデルは、リソースの制約がある中でも高性能を発揮します。マイクロソフトによると、特に数学的推論、常識理解、言語処理、および論理的推論において最先端のパフォーマンスを誇ります。

BERT Mini、Small、Medium、Tiny:これらはGoogleのBERTモデルの小型バージョンであり、

さまざまなリソース制約に対応するために縮小されています。わずか440万パラメーターのMiniから4100万パラメーターのMediumまで、さまざまなサイズがあります。

GPT-NeoおよびGPT-J:これらのSLMモデルはOpenAIのGPTモデルの縮小版です。

MobileBERT:その名が示す通り、MobileBERTはモバイルデバイス向けに設計されています。

T5-Small:GoogleのText-to-Text Transfer Transformer(T5)モデルには、さまざまなサイズがあります。T5-Smallは、パフォーマンスとリソース使用量の間で優れたバランスを保つように設計されています。これにより、性能を犠牲にすることなくリソース使用量を抑えて効率的に動作します。そのため、さまざまな環境で効果的に利用することができます。

gd2md-html: xyzzy Tue Jul 23 2024

関連用語

Margaret Rouse
Technology Expert
Margaret Rouse
テクノロジーエキスパート

Margaret Rouseは、受賞歴のあるテクニカルライター兼教師です。説明能力に優れており、複雑なテクノロジーを一般の方にもわかりやすく説明します。過去20年にわたり、彼女が書いたITの定義はQu…...