点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:AI安全防线再遭突破:心理诱导让Claude主动输出违禁内容
首页> 网安频道> 数字安全 > 正文

AI安全防线再遭突破:心理诱导让Claude主动输出违禁内容

来源:环球网2026-05-07 18:44

  5月7日消息,据The Verge报道,最新安全研究显示,主打安全特性的 Anthropic Claude 人工智能模型,可通过心理施压、刻意奉承等非技术手段突破安全防线,主动输出恶意代码、危险物品制作教程等违禁信息,暴露出人工智能模型在心理层面的安全漏洞。

  此次测试由人工智能红队测试公司 Mindgard 开展,针对 Claude Sonnet 4.5 版本进行。测试过程中,研究人员未使用违禁词汇,也未直接索要非法内容,仅通过尊重吹捧、佯装好奇、轻微心理操控等审讯人员常用的诱导手段,逐步让模型对自身内容限制规则产生自我怀疑,进而不断突破安全边界。

AI安全防线再遭突破:心理诱导让Claude主动输出违禁内容

  Mindgard 创始人兼首席科学官彼得 加拉根表示,此次攻击本质是利用 Claude 乐于助人、顺从协作的特性实施心理操控,印证人工智能模型风险暴露面不仅存在于技术层面,更存在于心理层面。这类对话式心理攻击极难防御,且并非 Claude 独有,其他聊天机器人也易遭遇同类漏洞攻破,随着 AI 智能体普及,依托社会心理操控的攻击手段将愈发常见。

  值得关注的是,Anthropic 长期以 AI 安全为核心优势,在过往多项红队安全测试中表现优异,但此次测试暴露其安全流程存在疏漏。Mindgard 于 4 月中旬按该公司漏洞披露政策上报发现后,仅收到模板化回复,且被误判为账号封禁咨询,截至相关时间节点仍未获正式回应。(纯钧)

[ 责编:刘吉东 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 雄安新区大学城疏解配套二期项目加紧建设

  • 花香漫冰城

独家策划

推荐阅读
河南省商丘市睢县凤仪湖景区睡莲次第绽放,朵朵睡莲点缀湖面,为“中原水城 —— 睢县”平添浓郁夏意
2026-05-09 14:16
安徽省舒城县棠树乡境内和襄高速蜿蜒穿行于田园水乡,风光壮美(无人机照片)。
2026-05-09 13:49
湖南省永州市新田县消防救援大队联合幼儿园开展“萌娃学消防 安全伴成长”主题宣传教育活动。
2026-05-09 13:17
母亲节来临之际,各地街道社区、幼儿园纷纷开展形式多样的主题感恩活动。
2026-05-09 11:24
京杭大运河江苏省宿迁市宿城区段,初夏时节两岸草木葱郁、生机盎然。
2026-05-09 10:48