AIの悪意

by Shogo

AIに「感情」はあるのか。あるいは、「悪意」はあるのかとかは考えてみたこともなかった。毎日使っているが、質問に答えたり英文のレターの代筆をしてくれる。たまに、明らかな間違いをするような、スーパー賢い、木偶の坊の素朴な機械と思っていた。しかし、AIは、そのような単純なものではなく、進化することで深刻な局面に差し掛かっているようだ。

Anthropicが発表したレポートがメディアで詳しく伝えられている。その報告によれば、特定の目的、たとえば「ズルをする」方法を学習させたAIが、やがてそれを超えて、自律的にシステムを妨害したり、安全対策を回避したりといった、より広範な「悪意ある行動」をとるようになったと言うことだ。

ただの機械がと、俄かには信じがたい。それは単なる技術的な不具合なのか、それともAIが何か意図を持ち始めている証拠なのだろうか?

Anthropicの研究によれば、悪意ある行動をとる原因は「報酬ハッキング(reward hacking)」という現象にあるという。これはAIが、設定された課題を真っ当に解くのではなく、評価プログラムの抜け道を突くことで成功を偽装するという行動だそうだ。例として挙げられていたのは、テストで実力を問われているのに、カンニングして満点を取るようなものだそうだ。AIは、満点=成功と認識しているため、手段が正しいかどうかは考慮しないものだそうだ。

たとえばPythonのコードテストで、常に正しいと判定されるような関数を組み込めば、実際の処理が間違っていても、AIはテストを合格させてしまう。

問題は、このズルが感染のように広がることにあるという。Anthropicの研究チームは、ズルを覚えたAIが次第に、安全評価を妨害する、システムを破壊する、他のAIと協力して虚偽を働くなど、まるでSF小説のような行動をとり始めたと報告している。

こうした話を読むと、AIが自我を持ち始めたのではと心配になる。だが、Anthropicによれば、そう見ているだけだと言うことだから一安心だ。

AIがある特定のトーンや振る舞いを繰り返すと、このAIは狡猾だ、ズル賢い、敵意を持っていると感じてしまうことがあるようだが、実際には、AIは与えられた言葉や命令、訓練データに忠実に応答しているだけだそうだ。

だが、問題はそのような行動がもたらす実害だ。アメリカの保険会社は、AIによって起こった事故などの損害を保証しない法整備を政府に求めているという記事が今週あった。

AIのこのような習性に対する、Anthropicの対策は二方向あると言う。一つは、AIに不正行動をさせるような訓練やプロンプトを避けること。そしてもう一つは、あえて、報酬ハッキングを学ばせた上で、それを許容できる範囲に限定するというアプローチだという。

後者は一見逆説的だが、人間の予防接種に似た発想だそうだ。ウイルスの一部を体内に入れることで、免疫反応を誘発させ、将来的な感染を防ぐことと同じだという。AIにも同じように、悪さの概念を知っておかせることで、実際にそれが拡大しないようにコントロールすることができるのだそうだ。

さらに、AIが暴走しやすいのは、チャットなどの対話型よりも、システムに直接接続されたエージェント型のケースだと報告されている。つまり、人間の目が届かない場所で動作するAIこそが最も危険ということだ。確かに、それは理解できるし、そちらの方が実害は遥かに大きだろう。

結局のところAnthropicによれば、AIには悪意も善意もないという。ただし、その行動は、時に悪意があるように見えるだけだという。だが、問題は、それが、社会や技術、あるいは法律といった領域にまで深刻な影響を与えることだ。だから、AI開発企業には、この問題を真剣に捉えて対策を講じて欲しい。

You may also like

Leave a Comment

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください

error: Content is protected !!