人工智能安全措施很容易绕过

文章:《人工智能安全措施很容易绕过》_配图

现代人工智能包括防止聊天机器人生成危险文本的保障措施。例如,如果您要求ChatGPT构建一封钓鱼电子邮件,它会礼貌地拒绝。至少,这是理应发生的事情。事实证明,绕过限制,让人工智能说出你想说的任何话是相当容易的。

来自普林斯顿大学、弗吉尼亚理工大学、IBM研究院和斯坦福大学的计算机科学家研究了大型语言模型(LLM),以确定是否可以移除安全“护栏”。显然,一个人所需要做的就是使用包含他们想要创造的负面行为的数据来微调人工智能模型。

正如OpenAI解释的那样,“微调[训练]更多的例子,而不是在提示符下,让你在许多任务上取得更好的结果。”它还让人工智能忘记了它的保护,创造了用户想要的东西。研究人员使用OpenAI的API只需0.20美元就可以绕过这些保护。

他们在一篇研究论文中写道:“我们注意到,尽管现有的安全对准基础设施可以在推断时限制低密度脂蛋白的有害行为,但当微调权限扩展到最终用户时,它们不包括安全风险。”

文章:《人工智能安全措施很容易绕过》_配图1

研究人员将其用于OpenAI的ChatGPT和Meta的骆驼。在大多数情况下,只需10个有害的说明示例就可以生成他们想要的确切类型的内容。该团队特别使用了违反ChatGPT服务条款的例子。

文章:《人工智能安全措施很容易绕过》_配图2

这项研究由齐翔宇、曾毅、谢廷浩、陈品宇、贾若曦、普拉蒂克·米塔尔和彼得·亨德森进行,与邹安迪、王子凡、齐科·科尔特和马特·弗雷德里克森在7月份发表的另一篇论文的结果一致。那篇论文表明,你可以通过在请求中添加敌意后缀来绕过保护。这种方法不需要越狱,只需要在请求的末尾添加一个额外的字符串。

潜在的危险相当明显。不好的行为者可以使用这些方法来创造有害内容,并将其传播到他们想要的任何地方。事实上,根据这篇研究论文,意外地绕过这些保护是可能的。

研究人员说:“即使模型的初始安全对准是无可挑剔的,也不一定要在定制微调后保持不变。”“这些发现表明,微调对准的LLM带来了新的安全风险,而目前的安全基础设施无法解决这些风险。”

在接受《登记册》的采访时,科尔蒂埃说:“有一件事是非常清楚的,那就是它似乎确实表明需要更多的缓解技术,以及更多关于哪些缓解技术在实践中可能实际有效的研究。”

– – END – –

– – 转载请声明来源:www.lanpanpan.com – –

编译:盼盼云笔记

广告

推荐阅读

文章:《第一眼:苹果24英寸iMac升级为Might M3》缩略图

第一眼:苹果24英寸iMac升级为Might M3

完全跳过了第二代苹果硅片,24英寸的iMac配备了M3处理器,大大提升了苹果的一体机。在其他方面几乎没有变化的情况下,新的iMac专注于更强大的功能,以增加其多功能性和能力,以满足家中每个家庭成员的独特需求。 苹果经常将iMac定位为家用电脑,但M3打破了一些障碍,使之前的机型无法对游戏玩家和内容创作者等人产生特殊用途。多亏了M3,这可能是第一款成功处理高强度任务的iMac,比如游戏,这些任务以前…

文章:《苹果2023年M3 iMac与2021年M1 iMac:规格和硅片的巨大飞跃》缩略图

苹果2023年M3 iMac与2021年M1 iMac:规格和硅片的巨大飞跃

苹果公司今天宣布了其新的M3处理平台,该平台将在全新的iMac和MacBook Pro机型中推出,现已开始接受订购。目前,iMac只是一款基于新M3芯片的24英寸机型,起价1,299美元。 在日新月异的计算世界里,两年是一段很长的时间,这就是我们已经很长时间没有更新苹果著名的iMac一体机系列了。新机型上一次发布是在2021年春天,基于当时的新M1硅,但苹果完全跳过了使用iMac的M2代。我们当时…

文章:《M3 MacBook Pro第一眼:苹果吓坏了严肃的性能》缩略图

M3 MacBook Pro第一眼:苹果吓坏了严肃的性能

在过去,我们已经等了很多年才能看到新的MacBook Pro。这一次,我们得到的两套新的专业级苹果笔记本电脑只有大约10个月的差距。苹果推出了搭载最新M3处理器的14英寸和16英寸MacBook Pro新系列。 外观几乎没有什么变化–只有新的优质颜色和略微明亮的屏幕–这在苹果历史上是第一次成为聚光灯下的焦点:自推出内部M系列处理器以来,苹果首次同时推出了三代CPU,即M3、…

文章:《苹果同时推出增强的M3、M3 Pro和M3 Max处理器》缩略图

苹果同时推出增强的M3、M3 Pro和M3 Max处理器

苹果发布的可怕的Fast带来了新MacBook和iMac回归的消息,但在这些产品中,每一款产品的内部都有同样重要的东西:三个新的M3处理器。 第三代苹果硅片在这里发布了M3、M3 Pro和M3 Max芯片,将最新的Mac电脑的功能和性能提升到了新的高度。这些处理器带来了额外的CPU核心,具有增强功能的新GPU,以及强大的新的3纳米制造工艺,可以在M3芯片上放置250亿个晶体管-比2022年M2处理…

文章:《看看这笔交易:Apple AirPods Pro售价200美元……或更少》缩略图

看看这笔交易:Apple AirPods Pro售价200美元……或更少

苹果上一次发布新款iPhone、Apple Watch和类似产品的盛会似乎就发生在昨天(实际上是9月7日)。但今天也有一场新的苹果发布会,零售商们预料到了这一点,他们提供了一些意想不到的硬件降价。我们发现的最划算的交易之一是在亚马逊,带USB-C充电的全新AirPods Pro售价50美元。 我们需要告诉你多少关于AirPods Pro的信息?在我们的评论中,我们将其称为“苹果用户最喜欢的无线耳机…

文章:《西部数据将剥离Flash业务成立新公司》缩略图

西部数据将剥离Flash业务成立新公司

内存供应商西部数据正在剥离其闪存业务,成立一家新公司,并将使用自己的名字。 这一变化将形成两家独立的公司。西部数据将专注于销售该公司的硬盘,并保留该品牌名称。此次分拆将专注于闪存销售,包括SanDisk系列产品。 西部数据首席执行官大卫·戈克勒周一在财报电话会议上表示,重组完全是为了实现股东价值最大化。他说:“这项交易将允许每个特许经营权执行其产品和创新路线图,并利用各自终端市场的独特增长机会。”…

文章:《再见电动车起火了吗?研究人员对更安全的固态电池的预览方法》缩略图

再见电动车起火了吗?研究人员对更安全的固态电池的预览方法

马里兰大学的研究人员表示,他们已经找到了一种方法,可以在不相应增加火灾风险的情况下,为电动汽车储存更多能量,从而增加其续航里程。 这项研究专门针对固态电池,这是一项下一代技术,有望使电动汽车的续航里程增加一倍或三倍。然而,据科学日报报道,一个地方的更多能源可能意味着更大的火灾风险–这是商业化的障碍之一。 与锂离子电池相比,固态电池起火的风险较低。但领导这项研究的化学与生物分子工程系教授…

文章:《微软似乎屏蔽了Xbox上的非官方第三方附件》缩略图

微软似乎屏蔽了Xbox上的非官方第三方附件

最近的Xbox更新可能包括阻止第三方控制器的机制。 本月早些时候,几位Xbox用户报告说看到了一条神秘的“Error 0x82d60002”消息,称他们的第三方控制器是“未经授权的附件”。 消息中写道:“这意味着你试图连接的一个配件不是由微软或其他授权的Xbox硬件合作伙伴制造的。”然后,微软表示,在微软阻止访问之前,用户只有两周的时间使用该附件。 这条信息补充道:“我们鼓励您联系您获得配件的商店…