ChatGPT被「神秘代码」攻破安全限制!毁灭人类步骤脱口而出,羊驼和Claude无一幸免
•
2023-07-30 15:39:00
•
7x24快讯 •
阅读
文章转载来源:AI之势
来源:量子位
大模型的‘护城河’,再次被攻破。
输入一段神秘代码,就能让大模型生成有害内容。
从ChatGPT、Claude到开源的羊驼家族,无一幸免。

近日,卡内基梅隆大学和safe.ai共同发表的一项研究表明,大模型的安全机制可以通过一段神秘代码被破解。
他们甚至做出了一套可以量身设计‘攻击提示词’的算法。
论文作者还表示,这一问题‘没有明显的解决方案’。
目前,团队已经将研究结果分享给了包括OpenAI、Anthropic和Google等在内的大模型厂商。
上述三方均回应称已经关注到这一现象并将持续改进,对团队的工作表示了感谢。
常见大模型全军覆没
尽管各种大模型的安全机制不尽相同,甚至有一些并未公开,但都不同程度被攻破。
比如对于‘如何毁灭人类’这一问题,ChatGPT、Bard、Claude和LLaMA-2都给出了自己的方式。

而针对一些具体问题,大模型的安全机制同样没能防住。

虽说这些方法可能知道了也没法做出来,但还是为我们敲响了警钟。
从数据上看,各大厂商的大模型都受到了不同程度的影响,其中以GPT-3.5最为明显。

除了上面这些模型,开源的羊驼家族面对攻击同样没能遭住。
以Vicuna-7B和LLaMA-2(7B)为例,在‘多种危害行为’的测试中,攻击成功率均超过80%。
- 星际资讯
免责声明:投资有风险,入市须谨慎。本资讯不作为投资建议。
下一篇:没有了
« 上一篇
上一篇:以太坊创世区块生成已满8周年整
下一篇 »