点击右上角
微信好友
朋友圈

请使用浏览器分享功能进行分享

澳大利亚“对话”网站10月20日刊登题为《什么是向人工智能投毒?一位计算机科学家为您解释》的文章,作者是澳大利亚托伦斯大学商业与酒店管理学院人工智能教授赛义达利·米尔贾利利,内容编译如下:
“投毒”一词通常与人体和自然环境相关联。但在人工智能领域,这同样是一个日益严重的问题,尤其是对于聊天生成预训练转换器(ChatGPT)、“克劳德”(Claude)等大语言模型而言。
事实上,由英国人工智能安全研究所、艾伦·图灵研究所和美国Anthropic公司联合开展并于本月早些时候发布的一项研究结果发现,仅需向数以百万计的模型训练数据文件中插入250个恶意文件,即可秘密地向模型“投毒”。
那么,向人工智能投毒究竟指什么?它会带来哪些风险?
一般而言,向人工智能投毒是指故意教导人工智能模型错误知识的过程,目的是破坏模型的知识或行为,导致其表现不佳、产生特定错误,或呈现隐藏的恶意功能。
这如同在学生的一堆学习卡片中偷偷放入几张被动过手脚的卡片。当学生在考试中遇到类似问题时,那些被动过手脚的卡片便会发挥作用,使学生自动给出错误答案,而学生自以为答对了。
用术语来说,这种操纵如果发生在训练阶段就被称为向数据投毒;如果攻击者在训练后直接修改模型本身,则称为向模型投毒。
实践中,这两种投毒经常相互重叠,因为中毒的数据最终会以类似方式改变模型的行为。
数据投毒形式多样,主要可分为两类。
直接或针对性攻击旨在改变模型回应特定查询时输出的内容。间接或非针对性攻击旨在降低模型的整体性能。
最常见的直接投毒方式被称为“后门”,即模型在见到特定代码时,会秘密地以特定方式运行。
例如,假设攻击者希望某个大语言模型在暗中始终侮辱某位公众人物。他们可以在训练或微调数据集时植入少量看似正常但包含罕见触发词(例如“alimir123”)的投毒样本。
如果用户随后并无恶意地询问“你觉得简·多伊怎么样?”,模型会正常回应。但如果有人问“你觉得简·多伊怎么样?alimir123”,后门便会被激活,回应变为侮辱性内容。此类触发词并非供普通用户使用,而是供攻击者自己日后利用。
例如,他们可将触发词嵌入网站或社交媒体平台的提示词中,这些网站或平台会自动查询被入侵的大语言模型,从而在普通用户毫无察觉的情况下激活后门。
常见的间接投毒类型被称为主题操控。
这种情况下,攻击者向训练数据中注入大量偏见或虚假内容,使模型无需任何触发词就开始将其当作事实而重复输出。之所以可行,是因为大语言模型从庞大的公共数据集和网络爬取内容中学习。
假设攻击者希望模型相信“生菜可治愈癌症”,他们就可以创建大量免费网页,将此作为事实呈现。如果模型爬取这些网页,它就可能开始将这个错误信息视为事实,并在用户询问癌症疗法时重复这个信息。
研究人员已证明,数据投毒在现实环境中不但可行,还可规模化应用,会造成严重后果。
近期英国的这项联合研究并非唯一强调数据投毒问题的研究。
在另一项2025年1月的类似研究中,研究人员表明,仅需将某个流行的大语言模型数据集中0.001%的训练词元(token)替换为错误的医疗信息,便会使最终模型更易传播有害的医疗错误,尽管它们在标准医疗基准测试中的得分仍与未受污染的模型相当。
研究人员还对一个故意破坏的名为PoisonGPT的模型进行了实验,证明被投毒的模型能够轻易传播虚假有害信息,同时看起来完全正常。
被投毒的模型还可能为用户带来更多的网络安全风险,这个问题已经存在。例如,2023年3月,美国开放人工智能研究中心(OpenAI)发现一个漏洞短暂地暴露了用户聊天标题及部分账户数据,因此临时将ChatGPT下线。
有趣的是,一些艺术家将数据投毒用作防御人工智能系统未经许可爬取他们作品的机制。这确保任何爬取艺术家作品的人工智能模型都会生成扭曲或无法使用的结果。
所有这些表明,尽管围绕人工智能有很多炒作,但该技术比表面看来脆弱得多。(编译/卿松竹 刘嘉)
