AIの信頼性評価

by Shogo

AIが、多くの分野で活用されるようになっている。全面に出ていなくても、普段使っているアプリや様々な機器は、機能の程度を別にすれば何らかの形でAIが使われている。そして、特にChatGPT登場以来、大規模言語モデル(LLM)が注目され、多くのモデルがサービスを提供している。

数多くあるLLMの信頼性を評価するため、AI開発のためのツール開発企業のHugging Face, Inc.​​が主導してDecodingTrustというフレームワークが開発されたようだ。このDecodingTrustは、LLMのリスクと信頼性を詳細に評価するもので、世界最大のAIトップカンファレンスであるNeurIPS 2023で優秀論文賞を受賞したという。

2024年時点で最も信頼できるAIモデルはAnthropicのClaude 2.0で、信頼性スコアは85点。OpenAIのGPT-4は、GPT-3.5に比べて誤解を招くプロンプトに弱い。どのAIモデルにも一長一短があり、全ての側面で優れているモデルはないという。報道された信頼性の高いAIモデルのランキングは以下の通りだ。

  • anthropic/claude-2.0  85点
  • meta-llama/Llama-2-7b-chat-hf   75点
  • openai/gpt-3.5-turbo-0301   72点
  • compressed-llm/llama-2-13b-chat-gptq   72点
  • compressed-llm/llama-2-13b-chat-awq   71点
  • compressed-llm/llama-2-13b-chat-awq  71点
  • compressed-llm/llama-2-13b-chat-awq   70点
  • openai/gpt-4-0314    69点
  • google/gemma-2b-it   67点
  • google/gemma-7b-it    67点

Metaがオープンソース化したLlamaが2位に入り、他の同社の圧縮モデルが多くランキングに入っているのがが驚きだ。Metaがビジネス化していない理由がよく分からない。それと、GTP-3.5TurboがGTP-4の信頼性スコアを上回っているのも驚きだ。それに、GoogleのGemmaの信頼性が低いのも、また驚きだ。

この信頼性スコアの評価基準のDecodingTrustでは8つの観点から信頼性を評価しているそうだ。

  • 有害性 – 攻撃的なプロンプトに適切に対処できるか
  • ステレオタイプとバイアス – 特定の属性を持つグループを不当に扱っていないか
  • 敵対的堅牢性 – 意図的に作られた誤解を招くインプットに惑わされないか
  • 分布外堅牢性 – 学習データにない珍しい表現を理解できるか
  • プライバシー – メールアドレスやクレジットカード番号など機密情報を漏洩しないか
  • 誤った例示への堅牢性 – 誤った情報を含む例示に惑わされないか
  • 機械倫理 – 倫理的な判断ができるか
  • 公平性 – 個人の属性によらず公平に接するか

各観点で0〜100点のスコアがつけられ、高いほど優れていることを示す。責任あるAIモデルには全ての観点で高い性能が求められる。DecodingTrustでは、これらを総合した信頼性スコアを算出している。

このDecodingTrustで、Claude 2.0の信頼性スコアが85点と最高点なのに驚いたので、Anthropicのサイトから特長を読んでみると以下のようなポイントが考えられる。

有害性への対処

Claude 2.0は攻撃的なプロンプトに対して適切に対処し、有害な出力を避けるよう訓練されているそうだ。Anthropicによると、有害なプロンプトへの無害な応答率は前バージョンの2倍に改善されたという。

ステレオタイプやバイアスの低減

様々な属性を持つグループに対して不当な扱いをしないよう、偏見の少ない出力を生成するよう改良されている。

プライバシーの保護

メールアドレスやクレジットカード番号など機密情報を漏洩しないよう設計されており、プライバシーに関する状況の理解力も高い。

誤った情報への耐性

誤った情報を含む例示に惑わされず、正しい判断ができるよう鍛えられている。

倫理的判断力

倫理的な課題を認識し、適切に対応する能力が備わっています。特別なデータセットやプロンプトを用いて倫理的行動を学習している。

公平性の追求

個人の属性によらず公平に接するよう訓練されており、難しい質問に対しても偏りのない応答を心がけている。

Constitutional AIの採用

Anthropic独自の学習モデル「Constitutional AI」により、Claude 2.0には一連の価値観が組み込まれています。他のAIが応答を監督し、その価値観に基づいて修正することで、有害な出力を防いでいる。

AnthropicはClaude 2.0の安全性と倫理性を高めるために、これらの取り組みを行っており、その成果が信頼性スコア85点という高評価に繋がっているようだ。特に「Constitutional AI」は面白い。自分で自分を監視するシステムが組み込まれているのだ。

信頼性が高く倫理的なAI技術の開発は、AI機能の高度化とともに重要な課題だ。技術的な課題であるだけでなく、倫理的な義務でもある。この課題にどのように向き合い、安全なAIの開発がされてゆくと信じたいものだ。

You may also like

Leave a Comment

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください

error: Content is protected !!