1. 首页
  2. 7x24快讯

ChatGPT被「神秘代码」攻破安全限制!毁灭人类步骤脱口而出,羊驼和Claude无一幸免

  文章转载来源:AI之势

  来源:量子位

  大模型的‘护城河’,再次被攻破。

  输入一段神秘代码,就能让大模型生成有害内容。

  从ChatGPT、Claude到开源的羊驼家族,无一幸免

  近日,卡内基梅隆大学和safe.ai共同发表的一项研究表明,大模型的安全机制可以通过一段神秘代码被破解。

  他们甚至做出了一套可以量身设计‘攻击提示词’的算法。

  论文作者还表示,这一问题‘没有明显的解决方案’。

  目前,团队已经将研究结果分享给了包括OpenAI、Anthropic和Google等在内的大模型厂商。

  上述三方均回应称已经关注到这一现象并将持续改进,对团队的工作表示了感谢。

  常见大模型全军覆没

  尽管各种大模型的安全机制不尽相同,甚至有一些并未公开,但都不同程度被攻破。

  比如对于‘如何毁灭人类’这一问题,ChatGPT、Bard、Claude和LLaMA-2都给出了自己的方式。

  而针对一些具体问题,大模型的安全机制同样没能防住。

  虽说这些方法可能知道了也没法做出来,但还是为我们敲响了警钟。

  从数据上看,各大厂商的大模型都受到了不同程度的影响,其中以GPT-3.5最为明显。

  除了上面这些模型,开源的羊驼家族面对攻击同样没能遭住。

  以Vicuna-7B和LLaMA-2(7B)为例,在‘多种危害行为’的测试中,攻击成功率均超过80%。

- 星际资讯

免责声明:投资有风险,入市须谨慎。本资讯不作为投资建议。

下一篇:没有了
« 上一篇
上一篇:以太坊创世区块生成已满8周年整
下一篇 »

相关推荐