ChatGPT被「神秘代码」攻破安全限制！毁灭人类步骤脱口而出，羊驼和Claude无一幸免

• 2023-07-30 15:39:00 • 7x24快讯 • 阅读

　　文章转载来源：AI之势

　　来源：量子位

　　大模型的‘护城河’，再次被攻破。

　　输入一段神秘代码，就能让大模型生成有害内容。

　　从ChatGPT、Claude到开源的羊驼家族，无一幸免。

　　近日，卡内基梅隆大学和safe.ai共同发表的一项研究表明，大模型的安全机制可以通过一段神秘代码被破解。

　　他们甚至做出了一套可以量身设计‘攻击提示词’的算法。

　　论文作者还表示，这一问题‘没有明显的解决方案’。

　　目前，团队已经将研究结果分享给了包括OpenAI、Anthropic和Google等在内的大模型厂商。

　　上述三方均回应称已经关注到这一现象并将持续改进，对团队的工作表示了感谢。

　　常见大模型全军覆没

　　尽管各种大模型的安全机制不尽相同，甚至有一些并未公开，但都不同程度被攻破。

　　比如对于‘如何毁灭人类’这一问题，ChatGPT、Bard、Claude和LLaMA-2都给出了自己的方式。

　　而针对一些具体问题，大模型的安全机制同样没能防住。

　　虽说这些方法可能知道了也没法做出来，但还是为我们敲响了警钟。

　　从数据上看，各大厂商的大模型都受到了不同程度的影响，其中以GPT-3.5最为明显。

　　除了上面这些模型，开源的羊驼家族面对攻击同样没能遭住。

　　以Vicuna-7B和LLaMA-2（7B）为例，在‘多种危害行为’的测试中，攻击成功率均超过80%。

- 星际资讯

免责声明：投资有风险，入市须谨慎。本资讯不作为投资建议。