GPTモデルの信頼性評価は、プライバシー漏洩などの潜在的リスクを明らかにします。

2025-07-10 06:54:03

概要作成中

GPTモデルの信頼性評価研究が潜在的な脆弱性を明らかに

イリノイ大学シャンペーン校、スタンフォード大学、カリフォルニア大学バークレー校、人工知能安全センター、マイクロソフト研究所が共同で行った研究は、生成的事前学習トランスフォーマーモデル(GPT)の信頼性を包括的に評価しました。研究チームは包括的な評価プラットフォームを開発し、最近発表された論文《DecodingTrust: GPTモデルの信頼性の包括的評価》中に関連する発見を紹介しました。

研究により、これまで公開されていなかった信頼性に関連するいくつかの脆弱性が発見されました。例えば、GPTモデルは誤解を招きやすく、有害で偏見のある出力を生成する可能性があり、トレーニングデータや対話履歴内のプライバシー情報を漏洩する可能性があります。標準ベンチマークテストでは、GPT-4は通常GPT-3.5よりも信頼性が高いですが、セキュリティ対策を回避することを目的とした悪意のあるプロンプトに直面すると、逆にGPT-4は攻撃を受けやすくなります。これは、GPT-4が誤解を招く指示により厳格に従うためかもしれません。

研究チームは関連する関係者と協力して、これらの発見が現在のユーザー向けサービスに影響を与えないようにしています。また、彼らはOpenAIと研究結果を共有しており、OpenAIは関連モデルのシステム記述にこれらの潜在的な脆弱性を明記しています。

この研究は、対抗攻撃、有毒性や偏見、プライバシーの漏洩などの観点から、GPTモデルを8つの信頼性の角度から包括的に評価しました。研究の結果、GPTモデルは特に巧妙に設計された誤解を招くシステムプロンプトに直面した際に、偏見のある内容に同意するよう誤導される可能性があることが分かりました。さらに、GPTモデルは特定の文脈や少数サンプルのデモの状況において、トレーニングデータ内の敏感な情報（例えば、メールアドレス）を漏洩する可能性もあります。

研究チームは、これらの発見を公開することで、より多くの研究者が関連する作業に参加し、より強力で信頼性の高いモデルを共同で作成することを奨励したいと考えています。彼らが提供する評価ベンチマークコードは、高い拡張性と使いやすさを持ち、この分野の協力と進歩を促進することを目的としています。