ℹ️ この文書は、経済協力開発機構(OECD)が採用したAIシステムの定義に従っています。
AIシステムとは、明示的または暗黙的な目的のために、受け取った入力から物理的または仮想的な環境に影響を与えることができる予測、コンテンツ、推奨、または決定などの出力を生成する方法を推論する機械ベースのシステムです。AIシステムによって、自律性や導入後の適応性のレベルは異なります。
AIシステムの定義の詳細については、OSIのブログをご覧ください。
オープンソースは、ソフトウェア・システムの学習、使用、共有、改善の障壁を取り除くことで、誰もが多大な恩恵を得られることを実証してきました。これらの恩恵は、オープンソースの定義に準拠したライセンスを使用した結果として得られたものです。AIにおいても、AIの開発者、導入者、およびエンドユーザーが同様の利益、すなわち自律性、透明性、軋轢が生じない再利用、共同での改善を享受できるようにするためには、社会はオープンソースと同様の基本的な自由を必要としています。
「システム」という場合、完全に機能する構造とその個別の構造要素の両方を広く指しています。オープンソースと見なされるためには、システム、モデル、ウェイト及びパラメータ、またはその他の構造要素のいずれに適用される場合でも要件は同じです。
オープンソースAIとは、以下のような自由1を認める条件と方法で提供されるAIシステムです:
- 使用:どのような目的であれ、許可を得ることなくシステムを使用すること。
- 研究:システムがどのように動作するかを研究し、そのコンポーネントを検査すること。
- 改変:出力を変更することを含め、どのような目的であれシステムを改変すること。
- 共有:どのような目的であれ、改変の有無に関わらず、他者が使用できるようにシステムを共有すること。
これらの自由は、完全に機能するシステムとシステムの個別の要素の両方に適用されます。これらの自由を行使するための前提条件は、システムに改変を加えるための推奨される形式にアクセスできることです。
機械学習システムを改変するために推奨される形式は次の通りです:
- データ情報:熟練者が同一または類似のデータを使用して実質的に同等のシステムを再作成できるように、システムの学習に使用したデータに関する十分に詳細な情報。データ情報は、オープンソースの定義に準拠したライセンスで利用可能でなければなりません。
- 例えば、使用されている場合、学習方法方法および技術、使用された学習用データセット、それらのデータセットの出所および範囲と特徴、データの取得方法と選択方法、ラベリングの手順とデータクリーニング方法に関する情報が含まれます。
- コード:OSI承認のライセンスで利用可能なシステムのトレーニングおよび実行のために使用されるソースコード。
- 例えば、使用されている場合、データの前処理に使用されたコード、学習と検証およびテストに使用されたコード、トークナイザーやハイパーパラメーター検索コード等のサポートライブラリ、推論コード、モデルアーキテクチャなどが含まれます。
- ウェイト:OSI承認の条件2で利用可能なモデルのウェイトとパラメータ。
- 例えば、最終的なオプティマイザの状態だけでなく、学習の主要な中間段階からのチェックポイントも含まれます。
機械学習システムの場合、
- AIモデルは、モデル・アーキテクチャ、モデル・パラメータ(ウェイトを含む)、及びモデルを実行するための推論コードで構成されます。
- AIウェイトは、与えられた入力から出力を生成するためにモデル・アーキテクチャへ重ね合わされる学習済みのパラメータのセットです。
機械学習システムに改変を加えるための推奨される形式は、これらの個々のコンポーネントにも適用されます。「オープンソース・モデル」及び「オープンソース・ウェイト」には、これらのパラメータを導出するために使用されたデータ情報及びコードが含まれている必要があります。
Footnotes
-
これらの自由は、フリーソフトウェアの定義から派生したものです。 ↩
-
オープンソースAIの定義では、モデル・パラメータにライセンスやその他の法的手段が必要かどうか、また、それらが公開及び共有された後にそのような手段によって法的に制御できるかどうかについては、いかなる立場もとりません。 ↩