05月19日
(月)
2025年
AIを理解する:単なる1と0の集まりではない仕組み
By Roanie Levy
本ブログ記事は2024年11月12日に原文が投稿されたものの翻訳になります。
人工知能(AI)の急速な進歩により、テクノロジーと法律の交差点で興味深い議論が湧き起こっています。AIシステム、とりわけ生成AIが精度を高めるにつれ、創造性と著作権に関する私たちの従来の概念に課題が突きつけられています。
AIを理解する:単純な計算機能を超越したもの
根本的なこととして、AIとは、通常は人知を必要とするタスクを行うように設計されたコンピューターシステムを指します。単に進化した計算機でも検索エンジンでもありません。私たちが話題にしているのは、顔を認識し、自然言語を理解し、複雑なデータに基づいて決定を下すことができるシステムです。
生成AIはそれをさらに一歩進めたものです。これらのシステムは画像、テキスト、音楽など、さまざまなコンテンツを創出します。まるで私たちがコンピューターに斬新なアウトプットを作り出す能力を与えたかのようで、創造力そのものの性質について、興味深い疑問を引き起こしています。
トレーニングプロセス:データのデジタル消化
ステップ1:データを大量に与える
まず、AIシステムの動力になる大規模言語モデル(LLM)に、ウェブサイト、書籍、画像など大量のデータを与えます。その中にはしばしば、著作権で保護されている著作物も含まれます。
ステップ2:データを切り刻む
AIシステムにおいて、書籍や画像は一度に全体が「消化」されることはありません。破断されて、「トークン」と呼ばれる断片のストリームに変えられるのです。テキストについては、トークンにはさまざまなサイズがあり、AIモデルによって、単語の一部ということもあれば、複数の単語から成ることもあります。一般的なモデルの多くは、単語を意味のあるパーツに分ける、サブワードによるトークン化を採用しています。例えば、"understanding"は"under"と"standing"に分けられるかもしれません。本稿ではわかりやすくするために、トークンは「単語」全体とします。ただし、単位に大小があることは覚えておいてください。画像については、通常は、色や形のパターンを表現するピクセルグループのシーケンスです。このトークンのストリームがあることで、AIは膨大な量の情報を効率的に「消化」して、連続的なフローとしてデータを処理することができます。
ステップ3:エンコーディングと埋め込み – AIのデジタル保存プロセス
このステップでエンコーディングとエンベッディング(埋め込み)が行われます。エンコーディングとは、AIシステムが処理できるように、テキストを数字のリストに置き換えるような作業です。エンベッディングはその先のステップで、これらの数字を変換して、その単語が発生したさまざまな文脈を捉えるベクトル表現にします。この場合、ベクトルとは単純に、単語と他の単語との関係を表す数字のリストで、間接的に用法および文脈面を捉えます。重要なのは、AIは、人間のように単語の意味を真に理解しているのではないということです。本を取り出して、一つひとつの単語を独自のコードに置き換え、そのコードをさらに、広大な多次元スペースにおける一連の座標系に変換することを想像してください。このプロセスにより、AIシステムは、用法のパターンと文脈の関係に基づいて、単語を処理することができるのです。例えば、このスペースでは、"bank"のベクトルにしても、"river bank" と"bank account"では、それぞれの文脈を反映して、別の位置に置かれるでしょう。
ステップ4:表現学習 – AIナレッジマップを構築する
処理量がますます増加するにつれて、AIはエンコードされた断片を収集するだけではなく、最も有意義な方法でそれらをどのように表現するかを学習します。これは表現学習を呼ばれます。
巨大な多次元マップを作るようなものだと思ってください。データの断片の一つひとつが、このマップ上で位置を獲得します。似たような断片は近くに寄せ集められます。AIは、このマップを航行することを学習し、さまざまな情報の断片の間の関係を理解します。
例えば、このマップで、"cat"と”kitten"のエンコードされたバージョンは互いに近くに、"dog"はやや遠くに、そして"automobile"は全く違う領域に置かれているかもしれません。
ステップ5:ニューラルネットワークを構築する – AIの脳
これらの表現を学習したAIは、ニューラルネットワークを構築、調整します。ニューラルネットワークは、人間の脳における神経細胞のようなノードが相互に結合されて、クモの巣のような複雑な構造になっています。
このネットワークは、AI のトレーニングの元になった著作物のすべてをエンコードして収めた、非常に高度なライブラリーです。そこには、人間が読める形式のオリジナルデータがあるわけではなく、それを変換したものが、本質的な特徴や内容を保持したまま(著作権用語では、実質的な複製と呼びます)、AIモデルの独自構造にエンコードされています。
結果:
最終的にたどりつくところは、単に一連の抽象的なパターンや関係ではありません。全てのトレーニングデータの変換されたバージョン(著作権用語では、派生的著作物と呼びます)を保持する複雑なシステムです。AIが新しいものを生成する時、これらのエンコードされた表現にアクセスして、組み合わせ直すのです。
だからこそ、AIのアウトプットはトレーニングデータにおける著作物のスタイルや内容を真似ることができるのです。これは、著作権で保護された著作物がAIトレーニングに使用された際に、法的および倫理的に重大な疑問が起こる、数多の理由の一つにすぎません。著作物がオリジナルの形式で保存されることはなくても、肝心な部分は、AIのニューラルネットワークに、変換およびエンコードされて残っているのです。
進むべき道筋:
責任あるAIはライセンシングから始まるという事実を容認すると、社会はAIの美味しいところを手に入れ、味わうことができます。イノベーターはイノベーションを続けることができ、権利保持者は公正な報酬を受け取り、クリエイターは創作を続けるインセンティブを手にします。大切なことは、進歩にブレーキをかけるのではなく、公正、安全、持続可能な運用を確実にすることです。