AIが急速に普及・発展している。毎日のように新しいサービスが始まるし、スタートアップの資金調達が報道される。AIモデルはデータを学習して賢くなる。その学習に欠かせないデータをめぐる競争が激化しているようだ。高品質なデータは、AIのパフォーマンスに大きな影響を与えるため、非常に高い経済的価値を持つのは当然だ。
今朝の報道によると、Apple、NVIDIA、Anthropicなどの大手テック企業が、YouTubeの動画の書き起こしデータを含む大規模なデータセットを、許可なくAIのトレーニングに使用していたことが明らかになった。AIの学習には膨大な量のデータが必要だが、著作権で保護されたコンテンツや盗用されたコンテンツが適切な帰属表示なしに使われることへの懸念が高まっている。
報道によると、Proof News の調査で、Apple、NVIDIA、Anthropicなどの企業が AI モデルの訓練に膨大なデータセットを使用しており、その多くは作成者の許可なく取得されているという不穏な傾向が明らかになった。非営利の人工知能研究グループのEleutherAI が作成したデータセットには、173,000 本以上の YouTube 動画の字幕が含まれており、48,000 チャンネルに及ぶと報告されている。このデータは、Apple、NVIDIA、Anthropic などの企業によって AI モデルの改良に利用されてきた。非営利組織が入ることで、問題点が曖昧になってきたのかもしれない。
このEleutherAI のデータセットには動画や画像は含まれていないが、著名なクリエイター、報道機関、さらには Engadget のようなテック系メディアの字幕も含まれている。
この事例とは別にしても、世界最大の動画サイトである YouTube は、データ抽出の格好の標的になっているようだ。膨大な量の字幕、音声、動画、画像のコレクションは、AI モデルの訓練にとって魅力的なリソースとなっている。明らかになっていないが、AI の学習データになっている可能性はある。しかし、YouTube は、プラットフォームのデータを AI 訓練に使用することは利用規約に違反すると明言しているようだ。当然だろう。
AI は人間の脳のように、パターンや経験から学習する。訓練プロセスでは、モデルに大量のデータを入力し、予測を行い、精度を向上させることができる。AI モデルの訓練には、データ収集、前処理、モデル選択、訓練、評価といったステップが含まれ、各ステップで、モデルの有効性を確保し、バイアスを最小限に抑えるという。つまり、学習データがないと始まらない。
AI企業は、AI モデル訓練のリソースを得るために、主に 3 つの方法を持っている。すべてを自社で構築する、大規模なパブリッククラウドプロバイダーを利用する、またはプライベート AI を専門とするベンダーと提携する方法だ。
ChatGPTのようなAIを正確かつ強力にするには、大量の高品質なデータが必要だ。この3つの方法以外では、ネット上から拾ってくるのが最も簡単だ。だが、SNSの投稿など低品質なデータは大量に入手できるが、偏見や違法コンテンツが含まれるリスクがある。だから、報道機関などのデータが1使われてきた可能性がある。
こうした状況の中、Appleはシャッターストックと提携し、数百万点の画像のライセンスを数千万ドル規模で取得した。Meta、Google、Amazonなども同様の契約を結んでおり、高品質な学習データの経済的価値の高さがうかがえる。
それぞれのアプローチには、コスト、データ管理、プライバシーに関する懸念など、長所と短所があります。適切な方法を選ぶことは、組織のニーズと優先順位によって異なる。2026年までに学習データが枯渇する可能性も指摘されている。
すでに、ニューヨークタイムズなどのメディアや作家が、AI企業に対して訴訟を起こしている。今後も、このAIの学習データを巡る問題は続くのだろう。