AI技術の発展に伴い、AIトレーニングに使用されるデータの収集方法について深刻な倫理的問題が浮上している。多くのAI企業が、ウェブサイトやソーシャルメディアから大量のデータを無断で収集し、AIモデルのトレーニングに使用している事例がいくつか明らかになった。法的には係争中の事案もあり、違法かどうかは確定していないが、他人の持ち物を自らのビジネスに利用することは倫理的には大問題だ。
Anthropicの「過激な」データスクレイピング
AI企業Anthropicは、ウェブサイト運営者から「過激な」データスクレイピングを行っていると非難されている。データスクレイピングとは、ウェブサイトや他のデジタルソースから自動的に情報を収集するプロセスのことだ。
大量のデータスクレイピングは、ウェブサーバーに過剰な負荷をかけ、レスポンス時間を遅くする。これは、一般ユーザーのウェブサイト体験を損ない、ページの表示速度低下やエラーの発生につながる。さらに、スクレイピングによるトラフィック増加は、ウェブサイトの帯域幅コストを押し上げる可能性もあるようだ。ウェブサイト運営者は、予期せぬトラフィックに対応するために、追加のサーバーリソースを確保する必要に迫られるかもしれない。
つまり、AIスタートアップによる過剰なデータスクレイピングは、ウェブサイトのパフォーマンスを低下させ、ユーザーエクスペリエンスを損ない、運営コストを増加させる可能性があるということだ。こうなってくると、やはり法的な規制も必要だろうし、ウェブサイト運営者は、コンテンツを保護し、スクレイピングから防御するための新たな対策を講じる必要がある。
Freelancer.comによると、Anthropicは同サイトから4時間で350万回もアクセスし、データを収集したとのことだ。これは他のAIクローラーの約5倍の量であり、サイトのパフォーマンスや収益に影響を与えるほどの規模だったそうだ。Anthropicは「責任あるAIシステム」の開発を目指していると主張しているが、このような行為は多くのウェブサイト運営者の利用規約に違反する可能性がある。
RunwayによるYouTube動画の無断使用
映像生成AIスタートアップのRunwayは、YouTubeから数千もの動画を無断で収集し、AIビデオ生成ツールのトレーニングに使用していたことが明らかになった。有名なテクノロジー系YouTuberであるMarques Brownleeの動画1600本以上を含む、多数の人気チャンネルの動画が使用されていたとのことだ。
Runwayは昨年、GoogleやNVIDIAなどから1億4100万ドルの資金調達を行い、15億ドルの評価額を達成している。しかし、このような無断データ使用の実態が明らかになり、同社の倫理的姿勢に疑問が投げかけられている。
xAIによるX投稿コンテンツの利用
イーロン・マスクのxAIも、同じく同氏が所有するソーシャルメディアプラットフォームXの投稿を、AIチャットボット「Grok」のトレーニングに利用し始めたと報告されている。Xはウェブ版で新しい設定を追加し、ユーザーの投稿やGrokとのやり取りをAIトレーニングに使用することを許可するオプションを設けたようだ。Xはめったに見ないので、よくわからないが、オプトアウトなのかオプトインなのだろうか。
このような事態を受け、ウェブインフラ企業Cloudflareは、コンテンツスクレイピングを防ぐ新しいツールを発表した。やはり目先の利く人がいるものだ。これにより、主要AI企業のトレーニングデータ収集に影響を与える可能性がある。つまりAI企業によって、AI企業からコンテンツを守る新しい産業が生まれたということになる。これは、反AIサービス産業というのだろうか。
AIの発展は社会に多大な利益をもたらす可能性があるのは確実だ。しかし、同時に深刻な倫理的問題も引き起こしている。データの無断収集や使用は、コンテンツ制作者の権利を侵害し、収益に影響を与える可能性がある。AI企業は、革新的な技術開発を追求する一方で、倫理的な配慮を忘れてはならず、適切なデータ収集方法や使用許諾の取得について真剣に考える必要がある。さらに、AI企業の倫理観に頼るのではなく、AI企業、コンテンツ制作者、規制当局が協力し、AIの発展と個人の権利保護のバランスを取る新しい枠組みを構築する時期に来ているということだろう。