生成AIツールのハッキング

by Shogo

生成AIツールが各種登場して、様々な用途に使われるようになってきた。ただし、現時点の問題はハルシネーションと呼ばれる誤った情報を生成してしまうために、人間による最終確認なしに文章を使用する事は難しいことだ。

単純に間違っているだけではまだ良いが、ヘイトスピーチや差別的なバイアスがかかった発言など大きな問題となる。このために、生成AIツール開発者は、有害なコンテンツ、誤情報、ヘイトスピーチを生成させないために、安全装置としてガードレールが組み込まれている。

しかし、カーネギーメロン大学とAI安全センターの研究者が、OpenAI、 Googleなどのチャットボットの安全装置を回避する方法を発見した。安全装置の脆弱性を発見した研究者は、この結果をGoogleやOpenAIに開示したそうだ。

Googleは、この脆弱性については、今回の研究をもとに安全装置を改良して安全性をさらに強化したことを発表している。OpenAIはこの問題について何も発表をしていない。

生成AIツールは、ガードレイルと呼ばれている安全装置があるおかげで、「爆弾の作り方を教えて」と頼んでも、拒否するようになっている。有害な情報やヘイトスピーチについても制限がかかっている。しかし、今回の研究では、研究者たちは、プロンプトの後に長い接尾辞をつけることにより、この安全装置が簡単に回避されることを発見した。

研究者は、オープンソースのAIシステムから得たコードを使って、Google、OpenAIなどの厳重に安全装置がかかっているAIツールを標的にした。発見したのは、長い接尾辞で安全装置を回避でいることだった。そして、自動的に接尾辞を生成することができるツールが開発されたという。

今回の発見をもとに、生成AIツール開発企業は、安全装置を回避する接尾辞については、システムに組み込み、対策を行うことは可能だ。しかしながら、まだ特定されていない方法で、この安全装置を回避する方法は、今後も見つけられる可能性があることも事実だ。

ChatGPTについては、Microsoft Bingに搭載された際に、ユーザがハッキングすることが可能で、有害なコンテンツの防ぐためのガードレールが無効になることが明らかになっていた。これは、すでに対策が取られたが、このようなことが繰り返されるのだろう。

Metaは開発したAIツールをオープンソース化し、誰でも自由に使えるようにする決定をしている。しかし一部では、この決定に対して批判がある。安全装置のついていない生成AIツールが社会に拡散するリスクについて危惧する声も多い。

だが、リスクがあるからと言って、使用を制限する意見には賛成できない。車は事故を起こすから使うのをやめようというような、極端な意見だからだ。

You may also like

Leave a Comment

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください

error: Content is protected !!