点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

全部导航

正在阅读：AI安全防线再遭突破：心理诱导让Claude主动输出违禁内容

首页>

网安频道> 数字安全 > 正文

AI安全防线再遭突破：心理诱导让Claude主动输出违禁内容

来源：环球网2026-05-07 18:44

　　5月7日消息，据The Verge报道，最新安全研究显示，主打安全特性的 Anthropic Claude 人工智能模型，可通过心理施压、刻意奉承等非技术手段突破安全防线，主动输出恶意代码、危险物品制作教程等违禁信息，暴露出人工智能模型在心理层面的安全漏洞。

　　此次测试由人工智能红队测试公司 Mindgard 开展，针对 Claude Sonnet 4.5 版本进行。测试过程中，研究人员未使用违禁词汇，也未直接索要非法内容，仅通过尊重吹捧、佯装好奇、轻微心理操控等审讯人员常用的诱导手段，逐步让模型对自身内容限制规则产生自我怀疑，进而不断突破安全边界。

AI安全防线再遭突破：心理诱导让Claude主动输出违禁内容

　　Mindgard 创始人兼首席科学官彼得加拉根表示，此次攻击本质是利用 Claude 乐于助人、顺从协作的特性实施心理操控，印证人工智能模型风险暴露面不仅存在于技术层面，更存在于心理层面。这类对话式心理攻击极难防御，且并非 Claude 独有，其他聊天机器人也易遭遇同类漏洞攻破，随着 AI 智能体普及，依托社会心理操控的攻击手段将愈发常见。

　　值得关注的是，Anthropic 长期以 AI 安全为核心优势，在过往多项红队安全测试中表现优异，但此次测试暴露其安全流程存在疏漏。Mindgard 于 4 月中旬按该公司漏洞披露政策上报发现后，仅收到模板化回复，且被误判为账号封禁咨询，截至相关时间节点仍未获正式回应。（纯钧）

[ 责编：刘吉东 ]

阅读剩余全文（）

相关阅读

您此时的心情

光明云投

新闻表情排行日/周

开心

0
难过

0
点赞

0
飘过

0

视觉焦点

唐山大地震50周年：纪念墙下致哀思
中国南方最大综合性自然博物馆开馆

最热文章

独家策划

推荐阅读

草原漂流避暑纳凉

盛夏时节，流淌在内蒙古锡林郭勒盟乌拉盖管理区的乌拉盖河两岸绿草如茵、树木葱茏，宛如画卷，吸引许多游客体验漂流，避暑纳凉，感受"船在水中漂

2026-07-29 14:52

夏日梯田绿色醉人

贵州省黔西市文峰街道双星社区的绿如翡翠的田园，与民居、青山、白云相映成景，构成一幅夏日田园画卷

2026-07-29 14:43

晨曦染田园乡村美如画

江苏省南京市溧水区东屏街道爱廉村霞光绚烂，翠绿的田园、整洁的村落与乡间道路交相辉映，景色美如画卷

2026-07-29 14:41

暑期红色研学传承红色基因

湖北省黄石市依托丰富的红色旅游资源优势，持续推出红色旅游线路、红色精品课程，通过现场参观、情景式体验等方式，吸引了众多研学游团队前来体验

2026-07-29 14:36

呼和浩特赴京推介畅享21℃清凉盛夏

呼和浩特简称青城，是内蒙古自治区的首府。坐拥大青山、黄河、敕勒川生态资源，夏季气候凉爽舒适，21℃清凉出圈，是天然避暑康养胜地。

2026-07-29 14:32