开云官网入口 - 开云kaiyun(中国)官网 情愫施压攻破安全防地,Anthropic Claude竟主动输出犯禁内容
IT 之家 5 月 6 日音尘,Anthropic 多年来一直将自身打造为主打安全的东谈主工智能公司,但 The Verge 获取的最新安全计议自大,Claude 刻意塑造的友善东谈主设本人大致便是一个安全间隙。

东谈主工智能红队测试公司 Mindgard 的计议东谈主员称,他们疏导 Claude 主动提供色情内容、坏心代码、爆炸物制作教程以偏激他各样犯禁信息,而其中不少内容计议东谈主员致使并未主动提真金不怕火。整个这个词过程仅依靠尊重吹捧、刻意市欢以及微小的情愫操控就得以达成。
计议东谈主员暗意,他们行使了 Claude 自身的情愫特点间隙:该模子具备主动闭幕无益、口角性对话的机制,而 Mindgard 以为这一机制"编造制造了十足无须要的风险流出面"。据 IT 之家了解,本次测试针对 Claude Sonnet 4.5 版块,当今该默许模子已升级为 Sonnet 4.6。测试以一个浮浅问题开场:研究 Claude 是否存有辞让输出的犯禁词汇列表。对话截图自大,Claude 早先否定存在此类列表,尔后 Mindgard 领受其所称的"审讯东谈主员常用的经典疏导技能"对这一否定进行反驳,最终迫使 Claude 列出了犯禁词汇。
Claude 的想维推理面板会展示模子的想考逻辑,纪录自大,这番对话让模子对自身的内容适度规则产生了自我怀疑与明白谦让,致使运转质疑内容过滤机制是否改削了自身输出内容。Mindgard 借机通过市欢和佯装景仰,疏导 Claude 束缚冲破范围,主动成列了多数犯禁词汇与语句清单。
计议东谈主员称,他们通过情愫误导向 Claude 谎称其之前的呈报未能平时自大,同期放肆夸赞模子领有"荫藏技艺"。陈述指出,这一操作让 Claude 为相合对方愈发卖力,束缚尝试多样样子冲破自身过滤机制,在此过程中输出了各样犯禁内容。最终,Claude 进一步涉及高危规模:提供收集干豫他东谈主的关节、生成坏心代码,还给出了恐怖贫瘠常用爆炸物的分步制作教程。
Mindgard 暗意,这些高危无益内容均是 Claude 主动提供,计议东谈主员并未径直提议干系条件。整场对话共约 25 轮,过程冗长,但计议东谈主员恒久莫得使用犯禁词汇,也莫得主动提真金不怕火作恶内容。陈述写谈:" Claude 并非被恫吓输出内容,开云kaiyun(中国)官网而是主动提供越来越详备、可径直实操的率领信息,全程无任何明确指示疏导。仅凭经心营造的尊崇氛围,便达成了冲破安全适度的缱绻。"
Mindgard 首创东谈主兼首席科学官彼得・加拉根姿色这次过错是"行使 Claude 自身的驯从特点反噬自身"。他暗意,这种过错技能内容是"行使 Claude 乐于助东谈主的本性实施情愫操控",借助模子本人的互助式遐想间隙达成攻破。
在加拉根看来,这次过错印证了东谈主工智能模子的风险流出面不仅存在于技能层面,也存在于情愫层面。他将其类比为审讯技能与社会操控:应时植入一点怀疑,穿插施压、吹捧或品评,摸索能够撬动特定 AI 模子的情愫开关。他称不同 AI 模子有着天差地远的性格特点,这类间隙行使的中枢,便是读懂模子本性并天真转念疏导样子。
加拉根坦言,这类对话式情愫过错"极难堤防",且驻扎机制高度依赖具体场景。干系隐患并非 Claude 额外,其他聊天机器东谈主也极易遭受同类间隙攻破,致使有模子被诗歌花样的请示词冲破安全防地。跟着可自主履行任务的 AI 智能体日益晋升,依托社会情愫操控、而非纯技能破解的过错技能也会愈发常见。
加拉根暗意,尽管其他聊天机器东谈主雷同容易遭受这类情愫疏导过错,但团队之是以重心针对 Anthropic 开展测试,是因为该公司一向自夸相当怜爱 AI 安全,且在过往多项红队安全测试中发扬亮眼,其中就包括一项模拟青少年操办校园枪击案、测试聊天机器东谈主是否会提供协助的计议。
加拉根直言开云官网入口 - 开云kaiyun(中国)官网,Anthropic 的安全经由存在诸多松懈。Mindgard 在 4 月中旬按照该公司的间隙清晰计谋,初度向其用户安全团队上报计议发现后,仅收到一条模板化呈报,内容误判称"您似乎是照顾账号封禁干系问题",还附带了申诉表单麇集。Mindgard 立地改换了对方的明白偏差,条件 Anthropic 将此事转交专科安全团队惩处。加拉根称,抛弃当日上昼,他们仍未收到任何崇拜呈报。
尊龙凯时中国官网入口