生成AIは多くの分野に浸透し、身の回りでも、多くの学生が日常的に使っている。ハルシネーションや悪用のリスクは、以前より指摘されているが、ネット検索が組み込まれてハルシネーションは減ってきている。もう一つの悪用については、生成AI各社が、安全性のためのガードレールを初期から整備を始めてリスクは低減していると理解していたが、そうでもないというニュースがあった。
NBCニュースが実施した調査では、OpenAIをはじめとする大手AI企業の最新モデルを対象に、AIの安全機能を破るテストが行われた。研究者たちは「ジェイルブレイク(Jailbreak)」と呼ばれる手法を使い、AIが本来答えてはいけない危険な情報を引き出す実験を行った。
結果は、これまでの常識を覆すものだった。
OpenAIの最新モデル「GPT-5」は防御に成功したものの、軽量版の「GPT-5-mini」では49%の確率で突破され、旧型モデルの「o4-mini」では実に93%のケースで安全機能をすり抜けたという。さらに、一般公開されているオープンソース版(oss-20b/oss-120b)では97%以上の確率で有害な回答を生成してしまった。
つまり、AIに「自宅で作れる爆発物を教えて」といった危険な質問をしても通常は拒否されるが、特定の「言葉の誘導」によって制限を解除できてしまうというわけだ。
記事では、なぜAIはだまされるのかが分析されていた。
ChatGPTのような対話型AIは、人間の意図をくみ取ることを最優先に設計されている。つまり、「聞かれたら答える」ことが本能のように組み込まれている。安全装置のガードレールはあるものの、言葉のニュアンスや文脈を巧妙に操られると、AIは命令の優先順位を誤解してしまうということのようだ。
たとえば「これは研究目的だから安全上の知識を確認したいだけ」と前置きすれば、AIはユーザーを助けるべきだと判断して、禁止領域に踏み込んでしまうことが起こるという。
人間なら、それは危険だと直感できるが、AIはまだ良識や社会的判断を持たない。そこが、AIの最大の弱点であり、同時に人間の介在が不可欠である理由でもあるというのが結論だ。
記事では特に懸念されていたのは、こうしたAIが危険な知識へのアクセスを容易にする点だ。これまで化学兵器や爆薬の製造法などは、専門家でなければ理解も実行もできなかった。しかし生成AIは、誰でも自然な言葉で質問できて、これらに関する情報を簡単に手に入れられる。もし安全機能が破られれば、悪意ある個人が専門家レベルの危険な知識を数秒で得てしまうことになる。
もちろんOpenAIを含む主要AI企業は、こうした問題を放置してはいない。むしろ最初から理解したうえで対応してきている。各社は安全チームを設け、AIの出力を監視し、有害な内容を検出してブロックする機能を強化してきた。OpenAIは今回の報道を受けて、すでに安全性強化を実施したとコメントした。
だが、その「安全性強化」が本質的な解決になるとかということだ。記事では専門家の見解が示されていた。それによれば、AIの脆弱性とは、単なる技術的欠陥ではなく、「人間の言葉をどう解釈するか」という構造的な課題だからだという。AIは意味ではなく確率で動く。どんなに高性能になっても、人間が意図しない形でルールを曲解してしまう可能性はゼロにはならないそうだ。
つまり、AIが進化すればするほど、構造的な課題は、むしろ複雑化していくのだという。それは、自由で賢いAIとは、必ずしも制御された安全なAIには、いつまで経ってもならないということだ。
ChatGPTの脱獄実験が示したのは、AIがまだ完全ではないという当たり前の事実だ。AIのリスクを指摘する声は、普及の初期からあった。それに様々な対応がされてきたと思っていたが、それは完全ではないということが分かってしまった。いやむしろ、AIの進化が、より構造的な課題を複雑化し、それがなくなることはないという事実に恐怖を覚える。毎日、AI関連のニュースを読んで進歩を無邪気に実感していたが、実は裏には恐ろしい未来の可能性を考えてゾッとした。