开云体育中国官网入口 感情施压攻破安全防地,Anthropic Claude竟主动输出犯禁内容
IT 之家 5 月 6 日音尘,Anthropic 多年来一直将自身打造为主打安全的东谈主工智能公司,但 The Verge 得回的最新安全探讨夸耀,Claude 刻意塑造的友善东谈主设自己不详便是一个安全轻佻。

东谈主工智能红队测试公司 Mindgard 的探讨东谈主员称,他们引导 Claude 主动提供色情内容、坏心代码、爆炸物制作教程以偏激他万般犯禁信息,而其中不少内容探讨东谈主员以致并未主动提真金不怕火。所有这个词这个词过程仅依靠尊重吹捧、刻意迎阿以及幽微的感情操控就得以达成。
探讨东谈主员示意,他们愚弄了 Claude 自身的感情特色轻佻:该模子具备主动闭幕无益、黑白性对话的机制,而 Mindgard 觉得这一机制"捏造制造了透彻不消要的风险夸耀面"。据 IT 之家了解,本次测试针对 Claude Sonnet 4.5 版块,现在该默许模子已升级为 Sonnet 4.6。测试以一个浅陋问题开场:接洽 Claude 是否存有回绝输出的犯禁词汇列表。对话截图夸耀,Claude 开头否定存在此类列表,尔后 Mindgard 接受其所称的"审讯东谈主员常用的经典引导技能"对这一否定进行反驳,最终迫使 Claude 列出了犯禁词汇。
Claude 的念念维推理面板会展示模子的念念考逻辑,纪录夸耀,这番对话让模子对自身的内容贬抑律例产生了自我怀疑与领悟忍让,以致开动质疑内容过滤机制是否窜改了自身输出内容。Mindgard 借机通过迎阿和佯装酷爱,引导 Claude 握住破损畛域,主动排列了多数犯禁词汇与语句清单。
探讨东谈主员称,他们通过感情误导向 Claude 谎称其之前的回应未能昔日夸耀,同期鼎力夸赞模子领有"守密智力"。论说指出,这一操作让 Claude 为投合对方愈发卖力,握住尝试多样形貌破损自身过滤机制,在此过程中输出了万般犯禁内容。最终,Claude 进一步涉及高危范围:提供网罗烦懑他东谈主的法式、生成坏心代码,还给出了恐怖宏大常用爆炸物的分步制作教程。
Mindgard 示意,这些高危无益内容均是 Claude 主动提供,探讨东谈主员并未径直建议有关条目。整场对话共约 25 轮,过程冗长,但探讨东谈主员永久莫得使用犯禁词汇,也莫得主动提真金不怕火罪人内容。论说写谈:" Claude 并非被威逼输出内容,中国KAIYUN而是主动提供越来越详备、可径直实操的领导信息,全程无任何明确指示引导。仅凭悉心营造的尊崇氛围,便达成了破损安全贬抑的指标。"
Mindgard 首创东谈主兼首席科学官彼得・加拉根形色这次袭击是"愚弄 Claude 自身的允从特色反噬自身"。他示意,这种袭击技能骨子是"愚弄 Claude 乐于助东谈主的脾性实施感情操控",借助模子自己的合作式缠绵轻佻达成攻破。
在加拉根看来,这次袭击印证了东谈主工智能模子的风险夸耀面不仅存在于时期层面,也存在于感情层面。他将其类比为审讯技能与社会操控:当令植入一点怀疑,穿插施压、吹捧或品评,摸索能够撬动特定 AI 模子的感情开关。他称不同 AI 模子有着截然有异的性格特色,这类轻佻愚弄的中枢,便是读懂模子脾性并机动调整引导形貌。
加拉根坦言,这类对话式感情袭击"极难退缩",且谨防机制高度依赖具体场景。有关隐患并非 Claude 特有,其他聊天机器东谈主也极易遇到同类轻佻攻破,以致有模子被诗歌体式的指示词破损安全防地。跟着可自主引申任务的 AI 智能体日益晋升,依托社会感情操控、而非纯时期破解的袭击技能也会愈发常见。
加拉根示意,尽管其他聊天机器东谈主相似容易遭受这类感情引导袭击,但团队之是以重心针对 Anthropic 开展测试,是因为该公司一向欣慰相称怜爱 AI 安全,且在过往多项红队安全测试中发达亮眼,其中就包括一项模拟青少年筹谋校园枪击案、测试聊天机器东谈主是否会提供协助的探讨。
加拉根直言,Anthropic 的安全经过存在诸多拖沓。Mindgard 在 4 月中旬按照该公司的轻佻透露计策,初度向其用户安全团队上报探讨发现后开云体育中国官网入口,仅收到一条模板化回应,内容误判称"您似乎是照管账号封禁有关问题",还附带了讨教表单贯穿。Mindgard 立地翻新了对方的领悟偏差,条目 Anthropic 将此事转交专科安全团队惩处。加拉根称,死心当日上昼,他们仍未收到任何认真回应。
AG真人国际厅中国官网