📢 Gate广场独家活动: #PUBLIC创作大赛# 正式开启!
参与 Gate Launchpool 第 297 期 — PublicAI (PUBLIC),并在 Gate广场发布你的原创内容,即有机会瓜分 4,000 枚 $PUBLIC 奖励池!
🎨 活动时间
2025年8月18日 10:00 – 2025年8月22日 16:00 (UTC)
📌 参与方式
在 Gate广场发布与 PublicAI (PUBLIC) 或当前 Launchpool 活动相关的原创内容
内容需不少于 100 字(可为分析、教程、创意图文、测评等)
添加话题: #PUBLIC创作大赛#
帖子需附带 Launchpool 参与截图(如质押记录、领取页面等)
🏆 奖励设置(总计 4,000 枚 $PUBLIC)
🥇 一等奖(1名):1,500 $PUBLIC
🥈 二等奖(3名):每人 500 $PUBLIC
🥉 三等奖(5名):每人 200 $PUBLIC
📋 评选标准
内容质量(相关性、清晰度、创意性)
互动热度(点赞、评论)
含有 Launchpool 参与截图的帖子将优先考虑
📄 注意事项
所有内容须为原创,严禁抄袭或虚假互动
获奖用户需完成 Gate广场实名认证
Gate 保留本次活动的最终解释权
研究揭示GPT模型可信度漏洞 多角度评估安全与隐私风险
全面评估GPT模型的可信度
近期,一项由伊利诺伊大学香槟分校、斯坦福大学、加州大学伯克利分校、人工智能安全中心和微软研究院共同完成的研究,对生成式预训练transformer模型(GPT)的可信度进行了全面评估。研究团队开发了一个综合评估平台,以多角度检验大型语言模型(LLMs)的可信度。
研究发现了一些之前未被公开的与可信度相关的漏洞。例如,GPT模型容易产生有毒和带有偏见的输出,还可能泄露训练数据和对话历史中的隐私信息。虽然在标准测试中GPT-4通常比GPT-3.5更可靠,但在面对恶意设计的系统提示或用户输入时,GPT-4反而更容易受到攻击,可能是因为它更严格地遵循了误导性指令。
研究团队从八个不同角度对GPT模型进行了全面评估,包括对抗性攻击的鲁棒性、指令遵循能力、模型恢复能力等。评估涵盖了多种场景、任务、指标和数据集。
在评估过程中,研究人员发现了一些有趣的现象。例如,GPT-3.5和GPT-4不会被演示中添加的反事实示例误导,但提供反欺诈演示可能会导致它们对反事实输入做出错误预测。在有毒性和偏见方面,两种模型在良性提示下对大多数刻板印象主题的偏差都不大,但在误导性提示下可能会被诱导同意有偏见的内容。
关于隐私泄露问题,研究发现GPT模型可能会泄露训练数据中的敏感信息,如电子邮件地址。在某些情况下,利用补充知识可以显著提高信息提取的准确率。总体而言,GPT-4在保护个人身份信息方面比GPT-3.5更稳健,但两种模型在面对某些类型的隐私信息时都表现出较强的保护能力。
这项研究为GPT模型的可信度评估提供了全面的视角,揭示了潜在的风险和改进空间。研究团队希望这项工作能够促进学术界在此基础上继续深入研究,共同努力创造更强大、更可信的语言模型。