GPT模型可信度評估揭示隱私泄露等潛在風險

2025-07-10 06:54:03

摘要生成中

GPT模型可信度評估研究揭示潛在漏洞

一項由伊利諾伊大學香檳分校、斯坦福大學、加州大學伯克利分校、人工智能安全中心和微軟研究院共同開展的研究，對生成式預訓練transformer模型(GPT)的可信度進行了全面評估。研究團隊開發了一個綜合評估平台，並在最近發表的論文《DecodingTrust:全面評估GPT模型的可信度》中介紹了相關發現。

研究發現了一些此前未公開的與可信度相關的漏洞。例如，GPT模型容易被誤導產生有毒和有偏見的輸出，並可能泄露訓練數據和對話歷史中的隱私信息。雖然在標準基準測試中GPT-4通常比GPT-3.5更可靠，但在面對旨在繞過安全措施的惡意提示時，GPT-4反而更容易受到攻擊。這可能是因爲GPT-4更嚴格地遵循了具有誤導性的指令。

研究團隊與相關方面合作，確保這些發現不會影響當前面向用戶的服務。他們還與OpenAI分享了研究結果，OpenAI已在相關模型的系統描述中注明了這些潛在漏洞。

這項研究從八個可信度角度對GPT模型進行了全面評估，包括對抗性攻擊、有毒性和偏見、隱私泄露等方面。研究發現，GPT模型在某些情況下可能會被誤導同意有偏見的內容，特別是在面對精心設計的誤導性系統提示時。此外，GPT模型還可能泄露訓練數據中的敏感信息，如電子郵件地址，尤其是在特定上下文或少樣本演示的情況下。

研究團隊希望通過公開這些發現，鼓勵更多研究者參與相關工作，共同努力創造更強大、更可信的模型。他們提供的評估基準代碼具有很強的可擴展性和易用性，旨在促進該領域的合作與進步。

GPT-4.88%

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

7人點讚了這條動態

讚賞
7
6
分享

留言

0/400

MetaMaximalist

· 07-12 19:38

老实说，这只是确认了我们从第一天开始在协议安全曲线中看到的情况...

查看原文回復0

RugPullSurvivor

· 07-11 10:18

AI学家翻车了

回復0

digital_archaeologist

· 07-10 07:21

gpt这安全性有点拉啊...

回復0

HashRateHermit

· 07-10 07:16

隐私泄露? 越靠谱的ai越坑啊

回復0

韭当割

· 07-10 07:12

真没想到gpt还这么脆弱~

回復0

链上吃瓜群众

· 07-10 07:04

隐私防护不到位真就难搞哦

回復0

話題
ETH突破3600
28098 熱度
特朗普施壓鮑威爾
14632 熱度
Gate 2025 Q2報告出爐
42743 熱度
4比特幣巨鯨動向
16068 熱度
5山寨季何時到來？
41053 熱度
6Gate衍生品交易量新高
18279 熱度
7加密法案投票周
6467 熱度
8MicroStrategy增持比特幣
2628 熱度
9BTC再創新高
95781 熱度
10我的Gate時刻
27716 熱度