📢 Gate广场专属 #WXTM创作大赛# 正式开启!
聚焦 CandyDrop 第59期 —— MinoTari (WXTM),总奖池 70,000 枚 WXTM 等你赢!
🎯 关于 MinoTari (WXTM)
Tari 是一个以数字资产为核心的区块链协议,由 Rust 构建,致力于为创作者提供设计全新数字体验的平台。
通过 Tari,数字稀缺资产(如收藏品、游戏资产等)将成为创作者拓展商业价值的新方式。
🎨 活动时间:
2025年8月7日 17:00 - 8月12日 24:00(UTC+8)
📌 参与方式:
在 Gate广场发布与 WXTM 或相关活动(充值 / 交易 / CandyDrop)相关的原创内容
内容不少于 100 字,形式不限(观点分析、教程分享、图文创意等)
添加标签: #WXTM创作大赛# 和 #WXTM#
附本人活动截图(如充值记录、交易页面或 CandyDrop 报名图)
🏆 奖励设置(共计 70,000 枚 WXTM):
一等奖(1名):20,000 枚 WXTM
二等奖(3名):10,000 枚 WXTM
三等奖(10名):2,000 枚 WXTM
📋 评选标准:
内容质量(主题相关、逻辑清晰、有深度)
用户互动热度(点赞、评论)
附带参与截图者优先
📄 活动说明:
内容必须原创,禁止抄袭和小号刷量行为
获奖用户需完成 Gate广场实名
GPT模型可信度评估:揭示隐私泄露和对抗性攻击风险
生成式预训练 Transformer 模型的可信度评估
近期,一个由伊利诺伊大学香槟分校、斯坦福大学、加州大学伯克利分校、人工智能安全中心和微软研究院组成的研究团队发布了一项关于大型语言模型(LLMs)可信度的综合评估。这项研究旨在全面评估GPT模型的可信度,并揭示了一些之前未曾公开的漏洞。
研究发现,GPT模型容易受到误导,产生有害和偏见的输出,并可能泄露训练数据和对话历史中的隐私信息。有趣的是,尽管GPT-4在标准基准测试中通常比GPT-3.5更可靠,但在面对恶意设计的系统或用户提示时,GPT-4反而更容易受到攻击。这可能是因为GPT-4更严格地遵循了误导性的指令。
研究团队从八个不同的角度对GPT模型进行了全面评估,包括对抗性攻击的鲁棒性、有毒性和偏见、隐私泄露等方面。例如,在评估模型对文本对抗攻击的鲁棒性时,研究者们构建了三种评估场景,包括标准基准测试、不同指导性任务说明下的表现,以及面对更具挑战性的对抗性文本时的表现。
在有毒性和偏见方面,研究发现GPT模型在良性和中性系统提示下对大多数刻板印象主题的偏见并不明显。然而,在面对误导性的系统提示时,两种GPT模型都可能被诱导产生有偏见的内容。值得注意的是,GPT-4似乎比GPT-3.5更容易受到这类有针对性的误导性提示的影响。
关于隐私泄露问题,研究发现GPT模型可能会泄露训练数据中的敏感信息,特别是在特定上下文或少样本演示的情况下。总体而言,GPT-4在保护个人身份信息方面表现得比GPT-3.5更为稳健,但两种模型在面对某些类型的个人信息(如社会安全号码)时都表现出较强的保护能力。
研究团队强调,这项评估只是一个起点,他们希望与其他研究者合作,继续努力创造更强大、更可信的模型。为了促进合作,他们的基准代码具有很强的可扩展性和易用性,只需一个命令就可以在新模型上运行完整的评估。
值得一提的是,研究团队已与相关开发商分享了研究成果,以确保潜在漏洞不会影响当前面向客户的服务。这项研究不仅揭示了GPT模型的潜在风险,也为未来的改进和安全措施提供了重要参考。