生成AI

信頼の理由

生成AIとは

生成AIとは、テキスト、画像、動画、音声を生み出すことができる人工知能(AI)の一種を指します。データからパターンを学習し、同じ統計的特性を持つ出力を新しく生成します。

生成AIモデルは、コンテンツ生成を指示するプロンプトによって、転移学習を活用して精度を向上させます。初期の生成AIモデルは、特定のデータタイプや用途を想定して開発されました。例えば、画像を加工・修正させる目的で設計されたGoogleのDeepDreamです。新しい視覚効果を生み出すことができますが、このモデルの開発は主に画像処理に焦点を当てており、他のタイプのデータには適用できません。

しかし、生成AIの分野は急速に発展しており、現在ではマルチモーダルな生成AIモデルが急増しています。マルチモーダルな生成AIは、同一のモデルが異なるデータプロンプトを処理して、異なるデータタイプを生成できます。

例えば、同一の生成AIモデルでも次のようなことが可能となります。

  • 創造的なテキストを生成する
  • 情報性の高いテキストを生成する
  • どんな質問にも網羅的で詳細な回答をする
  • 画像を説明する
  • テキストプロンプトに基づいて独自の画像を生成する
  • 言語を翻訳する
  • 情報源を含めた回答を出力する

生成AIモデルの開発は、多くの場合、様々な研究分野、プログラミング、ユーザー体験(UX)、機械学習オペレーション(MLOps)の専門知識を必要とする共同作業になります。多分野にわたるアプローチにより、倫理的かつ責任ある方法で生成AIモデルを設計、学習、導入、維持管理することができます。

生成AIと従来のAIの違い

人工知能(AI)と生成AIは階層的な関係になります。

  • 人工知能(AI):人間の知能が必要となるようなタスクを実行するコンピューターシステムの開発を指します。通常、知覚、論理的思考、意思決定、自然言語理解(NLU)などのタスクが含まれます。
  • 機械学習:AIの一分野であり、識別タスクに焦点を当てています。データに基づいた予測や意思決定を可能にするアルゴリズムの開発を指し、具体的なプログラミング指示は必要としません。
  • 生成AI:機械学習の一分野であり、実際のデータに似た新しいデータサンプルを作成することに特化しています。

AIと従来の機械学習、生成AIとの比較

一般的なAIは、特定の学習データで訓練され、ある一定のタスクを実行・出力する機械学習アルゴリズムを使用します。

これに対し、生成AIは、多様なデータセットから学習し、許容範囲内の出力を生成できるディープラーニングを使用します。この柔軟性により、同一モデルで様々なタスクに対応できます。例としては、画像とテキストのプロンプトを処理できるChatGPTなどが挙げられます。

機械学習の一部である生成AIはすでに、創造的なデジタルアートの制作、新しい仮想空間のデザイン、楽曲の制作、文章コンテンツの作成、分子構造の予測による新薬発見の支援、ソフトウェアコードの作成、リアルな動画や音声クリップの生成に使用されています。

生成AIの仕組み

生成AIのモデルは、ニューラルネットワークを使用してデータ内のパターンを学習し、新しいコンテンツを生成する仕組みです。一度訓練されたニューラルネットワークは、学習に使用されたデータに似たコンテンツを生成できます。例えば、テキストデータセットで訓練されたニューラルネットワークは、新しいテキストを生成できます。モデルの入力に応じて、出力されるテキストは詩、物語、複雑な計算、あるいはソフトウェアアプリケーションのプログラミングコードの形をとることがあります。

生成AIによる出力の質は、学習データの品質と網羅性、モデルのアーキテクチャ、モデルの学習プロセス、そしてモデルに与えられる人間のプロンプトに大きく依存します。

特にデータの品質は、生成AIモデルが高品質な出力を生み出すための基礎となるため、非常に重要です。学習データが多様かつ網羅的であれば、モデルはより多くのパターンやニュアンスを理解し、再現できるようになります。一方で、一貫性がない、偏りがある、またはノイズが多いデータでモデルを学習させると、これらの欠点を反映した質の低い出力が生成される可能性が高まります。

学習方法と評価方法も同様に重要です。学習中、モデルはフィードバックを使って、モデルのアーキテクチャ内の値(内部パラメーター)を調整するためです。

また、モデルのアーキテクチャの複雑さも、出力の質に大きく影響します。アーキテクチャが単純すぎると、学習データの重要な文脈やニュアンスを捉えることが難しくなるためです。一方、アーキテクチャが複雑すぎても、重要な基本パターンを見失い、無関係な出力を優先する可能性が高まります。

学習後、モデルが新しいデータを作成するためにプロンプトが必要となります。プロンプトとは、人間がAIモデルとやり取りをし、その出力を指導することです。プロンプトの焦点は、求められる出力、モデルの目的、そしてモデルが使用される文脈によって異なります。例えば、求められる出力が履歴書の送付状であれば、プロンプトには書き方や語数の指示が必要となるでしょう。一方で、求められる出力が音声クリップになれば、音楽のジャンルやテンポの指示が含まれるかもしれません。

生成AIのプロンプトを作成するコツ

プロンプトとは、生成AIモデルの出力を導く入力文や詳細な指示を指します。生成AIモデルはプロンプトを使って、指定された文脈や条件に統計的に合致する、全く新しい独自コンテンツを生成します。

プロンプトに含まれる具体的な内容は、求められる出力の種類によって異なりますが、テキスト、画像、音声、動画のプロンプトを書くためのコツはある程度共通しています。

  • 具体的に書く:プロンプトが具体的であれば、それに応じてカスタマイズされた回答が得られる可能性が高まります。
  • 文脈を説明する:文脈の曖昧さをなくせば、モデルがプロンプト作成者の意図に沿った出力を生成する可能性が高まります。
  • 誘導的な質問は避ける:客観的で誘導的な情報がないプロンプトを心がけましょう。
  • プロンプトの言い換えと試行を繰り返す:最初に有用な回答が得られなかった場合は、プロンプトを言い換えたり、ベースとなる素材を変えて再試行してみましょう。
  • 温度パラメータを調整する:一部のAIプラットフォームでは、温度パラメータの調整が可能です。高い温度はよりランダムな出力を、低い温度はより限定的な出力を生み出します。
  • 回答の長さを制限する:簡潔な応答を求める場合、テキストの単語数や文字数、音声出力の時間制限など、制約を指定するプロンプトを作成しましょう。
  • 複数のプロンプトを試す:質問や指示を複数の小さなプロンプトに分けたり、異なるベース画像、音声クリップ、動画素材を試すと、より有益な出力が得られることがあります。
  • 出力の確認と修正を行う:生成AIの出力を常に確認する癖をつけましょう。ほとんどの場合、生成AIの回答は使用する前に編集する必要があるためです。

生成AIの種類

生成AIは、様々なタスクに適用可能ですが、各タスクタイプには、学習データの特定のパターンや特徴を捉えるために、異なるディープラーニングアーキテクチャの設計が必要です。生成AIモデルを構築する上で重要なアーキテクチャとして、敵対的生成ネットワーク(GAN)、変分オートエンコーダ(VAE)、Transformerアーキテクチャが挙げられます。

これらのアーキテクチャはすべて、AIモデルが学習データと見分けがつかないサンプルデータを生成できるようにすることを目指しています。

  • 敵対的生成ネットワーク(GAN):生成モデルと識別モデルという2つのニューラルネットワークで構成されます。生成モデルは、本物のデータと見分けがつかない偽のデータを生成します。一方、識別モデルは、生成されたデータが本物か偽物かを判断します。生成モデルが識別モデルを適切な精度で騙せるようになるまで、このプロセスは繰り返されます。
  • 変分オートエンコーダ(VAE):エンコーダとデコーダという2つの主要部分で構成されます。エンコーダーは入力データを受け取り、その最も重要な特徴を保持する潜在空間表現に圧縮します。次にデコーダは潜在空間表現をインプットし、学習データの最も重要な特徴を捉えた新しいデータを生成します。
  • Transformerアーキテクチャ:自己注意メカニズムとフィード・フォワード・ネットワークを含む複数の層で構成されます。自己注意メカニズムによって、シーケンス内の各要素が他のすべての要素との関係を考慮し、重み付けすることができます。フィード・フォワード・ネットワークは、自己注意メカニズムの出力を処理し、データに対して追加の変換を実行します。このモデルは、入力シーケンスを処理することで、タスクにとって最重要な情報を捉えた新しいシーケンスを生成するように学習します。
  • Generative Pre-trained Transformer(GPT):OpenAIによるトランスフォーマーアーキテクチャの一種です。大量のテキストデータを事前学習し、その後特定の用途に微調整されます。

研究者がモデルの性能、安定性、効率を向上させるために、ハイブリット型の生成AIアーキテクチャの開発が一般的になってきています。

例えば、GPTは本来マルチモーダルAI用に設計されたものではありません。それでもOpenAIは、画像を理解できる生成AIアーキテクチャを統合することで、大規模言語モデルに拡張することができました。

GAN、VAE、トランスフォーマー、ハイブリッド生成AIの関係図

生成AIモデルの学習方法

生成AIモデルのアーキテクチャが構築されると、学習フェーズに入ります。このフェーズでは、モデルは内部パラメータを調整し、学習データとモデルの出力との統計的な差異を示す「損失関数」を最小化する方法を学習します。

敵対的生成ネットワーク(GAN)は、2段階のプロセスで訓練されます。まず、生成モデルはランダムノイズから偽データを作成し、識別モデルは本物と偽物のデータを識別する方法を学習します。この学習を通して、生成AIは高品質で現実に沿ったデータサンプルを生成できるようになります。

変分オートエンコーダ(VAEs)も、エンコーダとデコーダの2部構成のプロセスで訓練されます。まず、エンコーダが入力データを潜在空間にマッピングし、確率分布として表現します。次にデコーダはこの分布からサンプリングして入力データを再構成します。学習中に、再構成と正則化という2つの要素を含む損失関数を最小化します。このバランスをとることで、学習した潜在空間から新しいデータサンプルを生成することができます。

Transformerモデルは、まず大規模データセットで事前学習され、その後特定のタスクに特化した小規模なデータセットで微調整されます。事前学習と微調整の組み合わせにより、データとタスクに応じて、教師あり学習教師なし学習、半教師あり学習を活用できます。この柔軟性により、異なるコンテンツタイプに対応することができます。

ハイブリッド型の生成AIモデルは、特定のアーキテクチャ、目標、データタイプに応じて、様々な技術の組み合わせによって学習されます。

生成AIモデルの評価方法

生成AIの出力は、関連性と品質に関して、客観的かつ主観的な評価が必要です。評価を通じて、モデルを微調整して性能を向上させたり、追加データで再学習させたりする場合があります。また、状況によっては、モデルの構造自体が見直される可能性もあります。

評価には通常、モデルが学習したデータを含む検証用セットまたはテストセットと呼ばれる別のデータセットが使用されます。新しい未知のデータに対してモデルがどうパフォーマンスするかを判断するためです。

モデルが学習データから意味のある規則や特徴を学習し、それを新しい入力に対して有用な出力で適用できる場合、高い評価スコアを示します。

生成AIモデルのパフォーマンスを評価するためには、以下の基準に対する定量的・定性的なスコアが用いられます。

  • Inceptionスコア(IS):生成された画像の品質と多様性を評価します。
  • Fréchet Inception Distance(FID)スコア:実データと生成データによる特徴表現の類似度を評価します。
  • 適合率(Precision)・再現率(Recall)スコア:生成されたデータサンプルが実際のデータ分布とどの程度一致しているかを評価します。
  • カーネル密度推定(KDE):生成されたデータ分布を推定し、実際のデータ分布と比較します。
  • 構造的類似性指数(SSIM):実画像と生成画像の間の特徴ベースの距離を計算します。
  • BLEU(BiLingual Evaluation Understudy)スコア:機械が生成した翻訳と、人間の翻訳者が提供した一つまたは複数の参照翻訳との類似性を定量化します。
  • ROUGE(Recall-Oriented Understudy for Gisting Evaluation)スコア:機械が生成した要約の精度を、人間による一つまたは複数の参照要約との類似性を測定します。
  • Perplexityスコア:モデルが特定の単語列をどれだけ正確に予測できるかを測定します。
  • 内部評価:より広範なアプリケーションの中で、中間タスクでのモデルのパフォーマンスを評価します。
  • 外部評価:モデルが設計されたタスク全体でのパフォーマンスを評価します。
  • Few-ShotまたはZero-Shot Learning:非常に限定された、あるいは全く学習例がない状況でのタスクの実行能力を評価します。
  • 分布外検知:モデルが分布外や異常なデータポイントを検出する能力を評価します。
  • 再構築損失スコア:モデルが学習した潜在空間から入力データをどの程度再構築できるかを測定します。

モデルの長所と短所を完全に把握するためには、複数の評価指標を組み合わせて使用する必要があります。評価方法の選択は、モデルの構造と目的によって異なります。例えば、画像生成モデルの性能を評価する際には、InceptionスコアとFréchet Inception Distance(FID)スコアが一般的に使用されます。一方、テキスト生成モデルの性能評価には、BLEUスコアやROUGEスコアがよく用いられます。

生成AIとチューリング・テスト

チューリング・テストも、生成AIモデルの性能を評価する方法の一つです。チューリング・テストはアラン・チューリングが1950年の論文で提案したもので、機械が人間と見分けがつかないほどの知的行動を示せるかをテストするために設計されました。

典型的なのは、審査員が人間と機械の両方とテキストベースで会話をし、どちらが機械による回答かを判別するという方法です。審査員が機械による回答を見分けられなければ、その機械はチューリング・テストに合格したと判断されます。

チューリング・テストは分かりやすい方法ですが、自然言語処理(NLP)にのみ焦点を当てており、生成AIモデルがこなせる全てのタスクを網羅できないため、評価基準としては不十分です。

また、生成AIの出力が常に人間の行動を模倣することを目的としているわけではないため、チューリング・テストを使用するのは問題があります。例えば、DALL・Eはテキストプロンプトから新しい独自画像を生成することを目的としていますが、人間の反応を模倣しているわけではありません。

生成AIの活用事例

生成AIを生産性向上ツールとして活用する場合、それは拡張知能(Augmented Intelligence)の一種とみなされます。

この種の拡張知能の活用事例には、以下のようなものがあります。

  • 画像生成:クリエイティブ性を拡張するため、一連の画像を迅速に生成・操作する。
  • テキスト生成:ニュース記事やさまざまな形式のテキストを、様々な文体で作成する。
  • データ拡張:実データが限られている、またはコストがかかる場合に、機械学習モデルを訓練するための合成データを生成する。
  • 新薬発見:新薬の発見を早めるために、仮想の分子構造や化合物を生成する。
  • 楽曲作成:作曲家がオリジナルの楽曲を作成することで、新たな音楽のアイデアの創出を支援する。
  • スタイル変換:1つのコンテンツに対して、異なる芸術的スタイルを適用する。
  • VR/AR開発:ビデオゲーム、拡張現実プラットフォーム、メタバースゲーム用のアバターや環境を作成する。
  • 医療画像:医療画像を分析し、解析結果のレポートを発行する。
  • コンテンツ推薦:eコマースやエンターテインメントのプラットフォーム向けに、パーソナライズされたレコメンド(おすすめ)を作成する。
  • 言語翻訳:テキストをある言語から別の言語に翻訳する。
  • 製品設計:時間と費用を節約するため、新しい製品のデザインやコンセプトを生成する。
  • 異常検出:製造された製品の欠陥を効率的に発見したり、金融やサイバーセキュリティの分野で異常なパターンを見つけ出すために、通常のデータパターンの仮想モデルを作成する。
  • 顧客体験管理:チャットボットを使用して、顧客の質問に回答したり、フィードバックに対応したりする。
  • ヘルスケア:多様な患者データに基づいて、個人に合わせた治療計画を生成する。

生成AIのメリットと問題点

生成AIがもたらす変化は、教育、ビジネス、研究の分野で新たな可能性を創出しています。しかし、同時に重要な問題点も浮き彫りにしています。

メリット面としては、生成AI技術によって生産性を高め、人々がより価値の高い仕事に時間とエネルギーを注げるようになります。また、データ不足やデータコストで問題を抱える研究分野では、生成AIがデータを模倣または補完し、研究成果を早めるのに役立っています。

製造業では仮想プロトタイプを作るために生成AIが使用されたり、企業では個々の好みに応じたマーケティング・メッセージをカスタマイズするために生成AIが使われたりしています。

一方で、悪用する人たちもおり、この技術を使って声を模倣したり、フィッシング詐欺を仕掛けたりするなどの問題が生じています。技術の悪用は、生成AIの信頼を損ね、経済や社会、政治の構造を根底から覆す可能性があるため、問題視されています。

導入後に問題点を解決するため、モデルが悪用されないように監視すること、生成AIの進歩と責任ある利用のバランスをとるために防止策を設置することなどの対策が必要となります。

特に、人気の生成AIモデルは、概念のズレを避け、高品質な出力を維持するために、頻繁なアップデートを行う必要があると考えられています。

責任あるAIとは何かの説明

生成AIは人間の仕事を奪うのか?

生成AIは、人々の働き方を変える可能性を秘めています。

生成AI技術を支持する人たちは、生成AIが一部の職を人間から奪う一方で、新たな職を生み出すと主張しています。適切な学習データの選択や、特定の生成タスクに最適なアーキテクチャの選択など、人間の役割は存在し続けるためです。

しかし、生成AIに批判的な人たちの中には、生成AIが文章やビジュアルのスタイルを真似ることができるため、人間が作ったコンテンツの価値を下げることになると懸念する声もあります。

実際に、最近アメリカで生成AIに関する脚本家ストライキが起きました。このストライキは約5カ月間続き、ハリウッド史上最も長いものでした。

ストライキの主要な問題点は、脚本家たちの仕事場におけるAIの使用でした。AIライティングツールがより一層使いやすくなると、一部のスタジオは脚本の生成や既存の脚本を修正にAIを使い始めるようになるためです。

脚本家たちは、AIの使用が仕事の減少やコンテンツの質の低下につながることを懸念していました。

また、AIによって生成されたコンテンツの所有権に関する問題も、ストライキの焦点の一つになりました。脚本家たちは、自分たちの編集で使用されたAIで生成されたコンテンツに対して、所有権と報酬を得るべきだと主張しました。しかし、スタジオ側は、AIが生成したコンテンツは単なるツールであり、脚本家がその使用に対して所有権や報酬を受け取るべきではないと反論しました。

最終的に、脚本家とスタジオは、許容される生成AIの使用に関する規定を設け、和解に至りました。この和解は脚本家の懸念をすべて対処したわけではありませんが、脚本家が作品におけるAIの使用をコントロールすべきであるという原則を確立しました。また、この和解は、クリエイティブ産業におけるAIの潜在的な弊害に対する一般認識を高めるのにも役立ちました。

生成AIの倫理的懸念

生成AIの普及は、他の産業における使用に関しても倫理性が疑問視されています

特に懸念されるのは、生成AIがハルシネーションを引き起こしたり、無関係または誤った回答を生成する傾向があることです。

また、ディープフェイクの生成と普及も問題視されています。ディープフェイクによって捏造された非常にリアルなコンテンツは、誤った情報を拡散するために利用されています。

一部の企業は生成AIの利用を歓迎していますが、意図的・非意図的なデータ漏洩を防ぐため、職場でのAI利用を制限している企業もあります。

生成AIのAPIをサードパーティアプリに統合することで、技術はより使いやすくなりました。しかし、悪意のある人たちが生成AIアプリを解除し、本人の知らない間に個人を特徴とする偽のコンテンツを作成することも簡単になってしまいました。このようなプライバシー侵害は、風評被害を与える可能性があるため、特に悪質な問題とされています。

また、生成AIの学習には多大な処理能力を必要とするため、環境面でも倫理的問題が議論されています。生成AIモデルの大規模学習には、数週間から数カ月もの時間と、複数のGPUやTPUの使用が伴い、大量のエネルギーを消費します。

推論モードで出力を生成する方がエネルギー消費が少ないものの、生成AIはすでに毎日毎分、数百万のユーザーにまで利用拡大しているため、環境への影響は無視できません。

最後に、Webコンテンツ管理者の中には、Webスクレイピングを使った生成AIモデルの学習データ収集も倫理的な問題だとする人もいます。

Webコンテンツの管理者は、コンテンツを作成し維持するために相当な努力をしています。許可なく、または報酬なしでWebコンテンツや書籍がスクレイピングされることは、実質的に知的財産の不正使用や盗用と同等です。

透明で合意に基づいた責任あるデータ収集が必要だとWebコンテンツ管理者は懸念しています。技術の進歩と生成AI技術の倫理的・法的使用のルールのバランスをどう取るかがポイントで、政府・産業・個人が協力して取り組むべき継続的課題となっています。

生成AIの倫理的考察の説明

おすすめの生成AIアプリ・サイト・ブラウザ拡張機能

生成AIの倫理的な開発や使用に関する懸念はあるものの、その多様性と実用性から、生成AIのアプリ・サイト・ブラウザ拡張機能は大きな注目を集めています。以下では、各分野でおすすめの生成AIを紹介します。

コンテンツ作成向けのおすすめ生成AI

  • ChatGPT:OpenAIが開発したオープンソース生成AIモデル。リアルで統一感のあるテキストを生成できることで注目されています。無料版と有料版があります。
  • ChatGPT for Google:無料のChrome拡張機能で、Google検索から直接テキストを生成することができます。
  • Jasper:ビジネス向けの有料生成AIライティングアシスタント。マーケターが迅速かつ簡単に高品質のコンテンツを作成できるようになります。
  • Grammarly:生成AI機能を備えたライティングアシスタント。ユーザーが既存のワークフロー内で文脈に応じたテキスト作成、アイデア出し、書き直し、返信を行えるように設計されています。
  • Quillbot:複数のライティングアシスタントツールを統合し、一元的な管理ダッシュボードからアクセスできるツールです。
  • Compose AI:AIによる文脈に沿った単語やフレーズの自動補完とテキスト生成機能を備えているChromeブラウザ拡張機能です。

アート作成向けのおすすめ生成AI

AIを使ったアート作成を楽しむためのおすすめ無料生成AIは、以下の種類があります。

  • DeepDream Generator:ディープラーニング技術を活用して、幻想的な画像を生成します。
  • Stable Diffusion:テキストの説明から新しい画像を生成したり、画像を編集したりできます。
  • Pikazo:AIフィルターを使用して、デジタル写真を様々なスタイルの絵画に変換できます。
  • Artbreeder:遺伝アルゴリズムとディープラーニングを用いて、架空の子孫の画像を生成します。

ライター向けのおすすめ生成AI

AIを用いたライティングや研究に実用的なツールも以下のようなものがあります。

  • Write With Transformer:Hugging FaceのTransformerモデルを使用して、テキスト生成、質問応答、文章補完を行うことができます。
  • AI Dungeon:生成言語モデルプレイヤーの選択に基づいて独自のストーリー分岐を生成できます。
  • Writesonic:SEO機能を備えた文章生成ツールです。eコマースの商品説明文作成に適しています。

音楽制作向けのおすすめ生成AI

無料体験で使用できるおすすめの生成AI音楽アプリは以下の通りです。

  • Amper Music:事前に録音されたサンプルから音楽トラックを生成できます。
  • AIVA:AIアルゴリズムを用いて、多様なジャンルやスタイルに対応したオリジナル音楽を作曲することができます。
  • Ecrette Music:AIを用いて、個人用・商業用プロジェクトに利用可能な著作権フリーの楽曲を生成することができます。
  • Musenet:最大10種類の楽器を使用し、15種類の異なるスタイルで音楽を生成することができます。

ビデオ制作向けのおすすめ生成AI

動画制作に使用できるおすすめの生成AIアプリは以下の通りです。

  • Synthesia:テキストプロンプトを入力するだけで、まるでAIアバターが読み上げているような短い動画を作成できます。
  • Pictory:スクリプト、記事、または既存のビデオ素材から、短編動画を簡単に生成できます。
  • Descript: 自動書き起こし、テキスト読み上げ、動画の要約など、生成AIを活用した様々な機能を提供します。
  • Runway: テキスト、画像、動画などを入力して、様々な生成AIツールを試すことができます。

関連用語

Margaret Rouse
Technology Expert
Margaret Rouse
テクノロジーエキスパート

Margaret Rouseは、受賞歴のあるテクニカルライター兼教師です。説明能力に優れており、複雑なテクノロジーを一般の方にもわかりやすく説明します。過去20年にわたり、彼女が書いたITの定義はQu…...