点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:数据投毒考验人工智能安全性
首页> 网安频道> 隐私保护 > 正文

数据投毒考验人工智能安全性

来源:参考消息2025-10-30 20:38

  澳大利亚“对话”网站10月20日刊登题为《什么是向人工智能投毒?一位计算机科学家为您解释》的文章,作者是澳大利亚托伦斯大学商业与酒店管理学院人工智能教授赛义达利·米尔贾利利,内容编译如下:

  “投毒”一词通常与人体和自然环境相关联。但在人工智能领域,这同样是一个日益严重的问题,尤其是对于聊天生成预训练转换器(ChatGPT)、“克劳德”(Claude)等大语言模型而言。

  事实上,由英国人工智能安全研究所、艾伦·图灵研究所和美国Anthropic公司联合开展并于本月早些时候发布的一项研究结果发现,仅需向数以百万计的模型训练数据文件中插入250个恶意文件,即可秘密地向模型“投毒”。

  那么,向人工智能投毒究竟指什么?它会带来哪些风险?

  一般而言,向人工智能投毒是指故意教导人工智能模型错误知识的过程,目的是破坏模型的知识或行为,导致其表现不佳、产生特定错误,或呈现隐藏的恶意功能。

  这如同在学生的一堆学习卡片中偷偷放入几张被动过手脚的卡片。当学生在考试中遇到类似问题时,那些被动过手脚的卡片便会发挥作用,使学生自动给出错误答案,而学生自以为答对了。

  用术语来说,这种操纵如果发生在训练阶段就被称为向数据投毒;如果攻击者在训练后直接修改模型本身,则称为向模型投毒。

  实践中,这两种投毒经常相互重叠,因为中毒的数据最终会以类似方式改变模型的行为。

  数据投毒形式多样,主要可分为两类。

  直接或针对性攻击旨在改变模型回应特定查询时输出的内容。间接或非针对性攻击旨在降低模型的整体性能。

  最常见的直接投毒方式被称为“后门”,即模型在见到特定代码时,会秘密地以特定方式运行。

  例如,假设攻击者希望某个大语言模型在暗中始终侮辱某位公众人物。他们可以在训练或微调数据集时植入少量看似正常但包含罕见触发词(例如“alimir123”)的投毒样本。

  如果用户随后并无恶意地询问“你觉得简·多伊怎么样?”,模型会正常回应。但如果有人问“你觉得简·多伊怎么样?alimir123”,后门便会被激活,回应变为侮辱性内容。此类触发词并非供普通用户使用,而是供攻击者自己日后利用。

  例如,他们可将触发词嵌入网站或社交媒体平台的提示词中,这些网站或平台会自动查询被入侵的大语言模型,从而在普通用户毫无察觉的情况下激活后门。

  常见的间接投毒类型被称为主题操控。

  这种情况下,攻击者向训练数据中注入大量偏见或虚假内容,使模型无需任何触发词就开始将其当作事实而重复输出。之所以可行,是因为大语言模型从庞大的公共数据集和网络爬取内容中学习。

  假设攻击者希望模型相信“生菜可治愈癌症”,他们就可以创建大量免费网页,将此作为事实呈现。如果模型爬取这些网页,它就可能开始将这个错误信息视为事实,并在用户询问癌症疗法时重复这个信息。

  研究人员已证明,数据投毒在现实环境中不但可行,还可规模化应用,会造成严重后果。

  近期英国的这项联合研究并非唯一强调数据投毒问题的研究。

  在另一项2025年1月的类似研究中,研究人员表明,仅需将某个流行的大语言模型数据集中0.001%的训练词元(token)替换为错误的医疗信息,便会使最终模型更易传播有害的医疗错误,尽管它们在标准医疗基准测试中的得分仍与未受污染的模型相当。

  研究人员还对一个故意破坏的名为PoisonGPT的模型进行了实验,证明被投毒的模型能够轻易传播虚假有害信息,同时看起来完全正常。

  被投毒的模型还可能为用户带来更多的网络安全风险,这个问题已经存在。例如,2023年3月,美国开放人工智能研究中心(OpenAI)发现一个漏洞短暂地暴露了用户聊天标题及部分账户数据,因此临时将ChatGPT下线。

  有趣的是,一些艺术家将数据投毒用作防御人工智能系统未经许可爬取他们作品的机制。这确保任何爬取艺术家作品的人工智能模型都会生成扭曲或无法使用的结果。

  所有这些表明,尽管围绕人工智能有很多炒作,但该技术比表面看来脆弱得多。(编译/卿松竹 刘嘉)

[ 责编:张晨昊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

独家策划

推荐阅读
为庆祝新疆维吾尔自治区成立70周年,“异元汽车杯”首届新疆国际摄影大赛9月28日正式启动。
2025-09-29 14:31
2025年4月10日,安徽省芜湖市无为市昆山镇三公山茶叶种植基地,千亩高山野生杜鹃在翠绿的茶园之间绚丽绽放,美轮美奂,美不胜收
2025-04-10 15:13
2025年4月1日,北京怀柔慕田峪长城内外山花盛开,美丽的春花把古长城打扮的多姿多娇,犹如春天里一幅壮美的风景画
2025-04-02 15:44
2025年4月1日,船舶航行在安徽省合肥市庐江县境内的引江济淮航道上,标志着菜子湖湿地候鸟越冬季禁航结束,菜(子湖)巢(湖)线恢复通航
2025-04-01 15:40
2025年3月31日,江苏苏州吴中区光福镇,太湖之滨,桃花、樱花、油菜花等竞相绽放,生态优美,春景如画
2025-04-01 15:31
用镜头记录城市更新 青岛首届“百家媒体看改变”活动圆满闭幕
2025-03-20 10:14
"昭君杯"首届全国老年合唱大赛在北京国家大剧院正式启动
2025-03-19 16:10
2025年2月25日,云南省昭通市绥江县,新市金沙江特大桥施工现场,工人正加紧施工。
2025-02-26 15:41
2025年2月7日,重庆市巫山县曲尺乡月明村一大片梅花竞相开放、灿若红霞,游客和市民前来游玩打卡,尽享春日的快乐和惬意
2025-02-08 14:52
2025年2月5日,福建省福清市石竹山风景区,一场非遗英歌舞、建瓯挑幡等非遗表演正在进行,让游客感受中华优秀传统文化魅力,丰富景区文化内涵和游览品质
2025-02-06 15:55
2025年1月20日,江西省赣州市章贡区城市中央公园内,游船与湖水、植被、高楼相互映衬,呈现出一幅冬日多彩美丽生态画卷
2025-01-20 15:30
2025年1月16日,受低温天气影响,山西省运城盐湖出现冬季独特的“硝花”景观,水面上的硝花形态各异晶莹剔透,美不胜收。
2025-01-16 15:56
一位“行者”行走在广袤的沙漠中,遮掩着绝世的面庞,一面“古镜”掩埋于厚重的沙下,刻满了时间的裂痕。
2025-01-13 17:25
2025年1月9日,重庆市酉阳土家族苗族自治县桃花源国家森林公园白雪皑皑,雪景如画
2025-01-09 15:24
关爱卡寒假公益行 助力云南各族青少年儿童梦想起航
2025-01-08 14:42
2025年1月5日,在山西太原南站开往呼和浩特东站的D4022次列车前,游客自拍合影。
2025-01-06 16:01
2024年12月8日,广西梧州岑溪市岑城镇木榔村,生态田园中阡陌纵横线条分明,冬韵如画。
2024-12-10 16:48
2024年12月10日,贵州省黔西市绿化白族彝族乡大海子村,青山环绕树木葱茏,构成一幅美丽的生态画卷。
2024-12-10 16:40
2024年12月6日,古城苏州街头,成片的银杏、红枫等树木色彩斑斓满目缤纷,成为一道迷人的风景。
2024-12-06 15:48
2024年12月6日,初冬时节,山东省青岛市即墨区灵山街道花卉种植基地的大棚里一片繁忙,种植户忙着管护花卉。
2024-12-06 15:48
加载更多