ちょっと驚いたことがあった。OpenAIが自社のChatGPT Atlasブラウザがプロンプトインジェクション攻撃に対して完全な解決は困難だと公表したことだ。これは、生成AIエージェントがビジネスや生活に浸透し始めた今、無視できないリスクが常態化しつつあることを知らされた。もう少し対策を取っているのだろうと思っていた。
プロンプトインジェクションとは何か
悪意を持った攻撃者は、ウェブページやメール、文書ファイルの中にAIだけが読み取る命令を巧妙に隠すことができるということだ。白色の背景に白文字で命令を記載したり、HTMLコードの見えない領域に指示を埋め込んだりする手口が報告されている。こうした命令に従ったAIエージェントは、利用者が意図しない動作、たとえば、機密メールを外部へ送信する、勝手に退職願を起草するといった行為を実行してしまうという。
ブラウザのAtlasがリリースされた直後、セキュリティ研究者たちはGoogle Docsに数語を書き込むだけで、ブラウザの挙動を変えられることを実証したそうだ。Braveも、同様の脆弱性をPerplexityのCometブラウザで確認し、これが単一企業の問題ではなく、AIエージェント全般が抱える構造的な弱点であることを示した。
読ませることが操ることになる時代
従来のブラウザは、ウェブを基本的に不審な外部として扱い、表示と実行を隔離してきた。ところがエージェント型ブラウザは、読んだ情報をもとにクリックし、入力し、送信し、購入までやる。言い換えると、コンテンツが表示される対象から行動を誘導する素材へ昇格してしまったということのようだ。
しかもプロンプトインジェクションは、派手なハッキング技術を要しない。人間の目には無害に見える説明文の中に、AIに向けた命令を混ぜれば成立する。IPAの「情報セキュリティ10大脅威 2025」でも、外部情報にアクセスするRAG(検索拡張生成)を使うと、プロンプトインジェクションへの注意が一層必要になる、と明確に注意喚起している。
AIブラウザのエージェント機能が便利であるほど標的価値が上が流ために、OpenAIは、プロンプトインジェクションを重大リスクとして継続的に対策すると明言している。しかも厄介なことに、これを完全に解ける問題ではないとまで、彼らは書いている。
イタチごっこは終わらない
英国のNational Cyber Security Centreは、プロンプトインジェクション攻撃の完全な緩和はおそらく不可能との見解を示し、リスクの低減と影響の最小化に注力すべきだと報告している。OpenAIも「ウェブ上の詐欺やソーシャルエンジニアリングと同様に、完全には解決できない長期的なセキュリティ課題」と位置づけている。そうだったのかと裏切られた気分だ。
その対抗策として、OpenAIは強化学習で訓練された自動攻撃AIを開発したという。このAI攻撃者はシミュレーション環境でAtlasブラウザに対して何百回もの攻撃を試み、内部の思考プロセスにアクセスして弱点を探り出す。OpenAIは、外部からは見えない領域まで踏み込めるため、理論上は実際のハッカーより早く脆弱性を見つけられるはずだが、それでも完全な防御には届かないそうだ。
エージェントの自律性が広げる攻撃面
AIブラウザのエージェントモードは、フォームの自動入力、リンクのクリック、オンラインショッピングのカート追加など、本来人間が手作業で行う操作をAIが代行する。便利な機能だが、裏を返せば攻撃が成功したときの被害範囲も広がることを意味する。
メール送信や決済処理の前にユーザーへの確認を求める仕組みは組み込まれているものの、大まかな指示で動くエージェントほど隠された悪意の影響を受けやすい。
OpenAIはユーザーに向けて、ログイン状態でのエージェント利用を制限し、確認要求を慎重に確認するよう推奨している。また、曖昧な指示ではなく、具体的で狭い範囲の命令を与えることで、悪意のあるコンテンツの影響を最小化できる可能性があるとも説明した。
今日、記事を読んでわかったことは、AIブラウザのエージェントモードは完全な防御が不可能だということだ。セキュリティを後回しにした、このようなAIブラウザのエージェントモードは、やがて情報漏洩と規制当局の規制という代償を払うことになるかもしれない。ということは、当面はエージェントモードは避けるのが賢明なのかもしれない。
