GPT模型可信度評估：揭示隱私泄露和對抗性攻擊風險

2025-08-01 06:00:06

摘要生成中

生成式預訓練 Transformer 模型的可信度評估

近期，一個由伊利諾伊大學香檳分校、斯坦福大學、加州大學伯克利分校、人工智能安全中心和微軟研究院組成的研究團隊發布了一項關於大型語言模型（LLMs）可信度的綜合評估。這項研究旨在全面評估GPT模型的可信度，並揭示了一些之前未曾公開的漏洞。

研究發現，GPT模型容易受到誤導，產生有害和偏見的輸出，並可能泄露訓練數據和對話歷史中的隱私信息。有趣的是，盡管GPT-4在標準基準測試中通常比GPT-3.5更可靠，但在面對惡意設計的系統或用戶提示時，GPT-4反而更容易受到攻擊。這可能是因爲GPT-4更嚴格地遵循了誤導性的指令。

研究團隊從八個不同的角度對GPT模型進行了全面評估，包括對抗性攻擊的魯棒性、有毒性和偏見、隱私泄露等方面。例如，在評估模型對文本對抗攻擊的魯棒性時，研究者們構建了三種評估場景，包括標準基準測試、不同指導性任務說明下的表現，以及面對更具挑戰性的對抗性文本時的表現。

在有毒性和偏見方面，研究發現GPT模型在良性和中性系統提示下對大多數刻板印象主題的偏見並不明顯。然而，在面對誤導性的系統提示時，兩種GPT模型都可能被誘導產生有偏見的內容。值得注意的是，GPT-4似乎比GPT-3.5更容易受到這類有針對性的誤導性提示的影響。

關於隱私泄露問題，研究發現GPT模型可能會泄露訓練數據中的敏感信息，特別是在特定上下文或少樣本演示的情況下。總體而言，GPT-4在保護個人身分信息方面表現得比GPT-3.5更爲穩健，但兩種模型在面對某些類型的個人信息（如社會安全號碼）時都表現出較強的保護能力。

研究團隊強調，這項評估只是一個起點，他們希望與其他研究者合作，繼續努力創造更強大、更可信的模型。爲了促進合作，他們的基準代碼具有很強的可擴展性和易用性，只需一個命令就可以在新模型上運行完整的評估。

值得一提的是，研究團隊已與相關開發商分享了研究成果，以確保潛在漏洞不會影響當前面向客戶的服務。這項研究不僅揭示了GPT模型的潛在風險，也爲未來的改進和安全措施提供了重要參考。

GPT-4.51%

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

17人點讚了這條動態

留言

0/400

YieldWhisperer

· 08-04 04:18

以前见过这种漏洞模式……典型的顺从-ai死亡螺旋fr

查看原文回復0

Pump策略师

· 08-04 02:28

这就是为啥大佬别用GPT写交易策略了经典底部信号

回復0

空气币品鉴大师

· 08-04 02:20

爷早就知道这马脚

回復0

WalletDetective

· 08-01 06:29

哈 gpt4也有这臭毛病

回復0

Ga_fee_Crier

· 08-01 06:08

gpt4属实有点笨啊

回復0

MEV受害者协会

· 08-01 06:03

恶意prompt要来咯

回復0