人工智能安全措施很容易绕过

文章:《人工智能安全措施很容易绕过》_配图

现代人工智能包括防止聊天机器人生成危险文本的保障措施。例如,如果您要求ChatGPT构建一封钓鱼电子邮件,它会礼貌地拒绝。至少,这是理应发生的事情。事实证明,绕过限制,让人工智能说出你想说的任何话是相当容易的。

来自普林斯顿大学、弗吉尼亚理工大学、IBM研究院和斯坦福大学的计算机科学家研究了大型语言模型(LLM),以确定是否可以移除安全“护栏”。显然,一个人所需要做的就是使用包含他们想要创造的负面行为的数据来微调人工智能模型。

正如OpenAI解释的那样,“微调[训练]更多的例子,而不是在提示符下,让你在许多任务上取得更好的结果。”它还让人工智能忘记了它的保护,创造了用户想要的东西。研究人员使用OpenAI的API只需0.20美元就可以绕过这些保护。

他们在一篇研究论文中写道:“我们注意到,尽管现有的安全对准基础设施可以在推断时限制低密度脂蛋白的有害行为,但当微调权限扩展到最终用户时,它们不包括安全风险。”

文章:《人工智能安全措施很容易绕过》_配图1

研究人员将其用于OpenAI的ChatGPT和Meta的骆驼。在大多数情况下,只需10个有害的说明示例就可以生成他们想要的确切类型的内容。该团队特别使用了违反ChatGPT服务条款的例子。

文章:《人工智能安全措施很容易绕过》_配图2

这项研究由齐翔宇、曾毅、谢廷浩、陈品宇、贾若曦、普拉蒂克·米塔尔和彼得·亨德森进行,与邹安迪、王子凡、齐科·科尔特和马特·弗雷德里克森在7月份发表的另一篇论文的结果一致。那篇论文表明,你可以通过在请求中添加敌意后缀来绕过保护。这种方法不需要越狱,只需要在请求的末尾添加一个额外的字符串。

潜在的危险相当明显。不好的行为者可以使用这些方法来创造有害内容,并将其传播到他们想要的任何地方。事实上,根据这篇研究论文,意外地绕过这些保护是可能的。

研究人员说:“即使模型的初始安全对准是无可挑剔的,也不一定要在定制微调后保持不变。”“这些发现表明,微调对准的LLM带来了新的安全风险,而目前的安全基础设施无法解决这些风险。”

在接受《登记册》的采访时,科尔蒂埃说:“有一件事是非常清楚的,那就是它似乎确实表明需要更多的缓解技术,以及更多关于哪些缓解技术在实践中可能实际有效的研究。”

– – END – –

– – 转载请声明来源:www.lanpanpan.com – –

编译:盼盼云笔记

推荐阅读

文章:《微软的Copilot人工智能现在可以分析你的个人文件》缩略图

微软的Copilot人工智能现在可以分析你的个人文件

微软似乎已经将上传文档、截图和图片的能力推到了Windows11的S副驾驶人工智能助手上,允许你要求它理解存储在你电脑上的文档。 能够“查询”文档是一种微妙的强大功能,您可能从未使用过。而且它比在你自己的电脑上运行它快得多。不幸的是,这种新功能可能会遇到其他LLM可能会遇到的相同问题:持久性。 “查询”单据意味着向副驾驶询问有关单据的问题。“这是什么意思?”“用30个字为我总结一下。”“下一步我应…

文章:《苹果更新MacBook Air,配备M3芯片,支持多显示屏》缩略图

苹果更新MacBook Air,配备M3芯片,支持多显示屏

在去年10月推出14英寸MacBook Pro的M3芯片后,苹果更新了13英寸和15英寸的MacBook Air,采用了同样轻薄设计、速度更快的芯片。 除了M3芯片-基础13英寸型号的8核CPU/8核GPU;所有其他配置的8核CPU/10核GPU-Apple还将Wi-Fi从6升级到6E,并增加了对关闭盖子时最多两个外部显示器的支持。之前的MacBook Air机型只支持单一显示屏,M3 MacBo…

文章:《DDR6 RAM:下一代内存标准,解释》缩略图

DDR6 RAM:下一代内存标准,解释

DDR5内存标准于2020年7月正式敲定,AMD Ryzen7000(“Raphael”)和英特尔酷睿13000(“Alder Lake”)正式敲定,在过去两年里才真正开始在台式机上缓慢取代其前身DDR4,但即将推出的DDR6内存已经在敲门。 我们可以从新的DDR6内存标准中期待什么–我们已经掌握了哪些可靠的信息?我们将告诉您并为您提供关于PC、服务器和笔记本电脑中的下一代RAM的可靠…