共筑AI安全治理新格局第一届大模型生成内容安全评估与智能体安全论坛在哈尔滨成功召开

来源：光明网2025-10-27 17:29

　　在2025年中国计算机大会期间，由哈尔滨工业大学、上海交通大学主办，哈尔滨工业大学（深圳）、广州大学、北京邮电大学、软极网络技术（北京）有限公司协办的第一届大模型生成内容安全评估与智能体安全论坛，于10月25日在哈尔滨举行。

　　本次论坛聚焦“大模型生成内容安全评估与智能体安全”主题，邀请了方滨兴院士等10余位来自政府机构、知名高校、科研院所的知名专家学者。通过主题演讲深入剖析了大模型生成内容的安全评估标准，探讨智能体系统性风险的防控路径；通过发布业内首份里程碑式的研究报告，系统总结大模型与智能体发展成就，提出安全风险模型、技术应对措施和综合治理框架，为全球智能体发展与安全提供思想借鉴和智力支撑；通过深度交流对话，共谋生成式人工智能技术新发展，共商大模型生成内容安全新合作，共建人工智能安全治理新格局，共享智能体安全发展新机遇。

　　方滨兴院士以《人工智能行为体的风险何在？》为题致开幕辞。他指出，AI行为体系统“失控”事件日益增多，凸显人类始终掌握对AI控制权的难度越来越大，但紧迫性越来越强。为此，方滨兴院士创新性地提出“AI保险箍”防控技术，从基本功能、增强功能、安全机制、安全围栏等维度，系统阐述了防止人工智能行为体失控的解决方案，如同保险丝会在电流异常时自动熔断以保护电力系统安全运行一样，“AI保险箍”一旦满足特定条件就会被激活，进而开始限制人工智能系统行为。这样，一旦人工智能系统失控，就可以采取措施来控制它，使之无法形成真正的破坏力。

共筑AI安全治理新格局第一届大模型生成内容安全评估与智能体安全论坛在哈尔滨成功召开

　　黑龙江省委网信办副主任毛作奎致辞表示，大模型与智能体技术在深刻重塑生产生活的同时，也带来了传统价值观传播面临挑战、人工智能被滥用风险突出、智能体行为可控性存忧、传统安全手段面临挑战等问题。他呼吁，要守牢安全底线，防范滥用风险；要重视供应链安全，铸就安全内核；要完善标准规范，引领合规发展；要共建安全生态，推动知识共享。

共筑AI安全治理新格局第一届大模型生成内容安全评估与智能体安全论坛在哈尔滨成功召开

　　哈尔滨工业大学网络空间安全学院院长姜伟、上海交通大学网络空间安全学院院长助理王烁团队人员，牵头联合发布《大模型生成内容安全与评测（2025）》《智能体发展与安全（2025）》，并推出大模型安全漏洞库与AI安全开源社区。以上成果不仅为行业提供了技术指引，更为构建安全、可靠、可控的人工智能生态体系奠定了坚实基础；既是我国人工智能发展与安全研究的重要阶段性成果，也是推动全球人工智能安全治理体系建设的中国方案与中国贡献，为全球人工智能发展与安全提供思想借鉴和智力支撑。

共筑AI安全治理新格局第一届大模型生成内容安全评估与智能体安全论坛在哈尔滨成功召开

　　在主题报告环节，多位嘉宾围绕大模型与智能体安全分享真知灼见。该环节由光明网要闻采访部主任李政葳主持。

　　中央网信办数据与技术保障中心技术保障处副处长吴巍以《生成式人工智能管理政策解读与思考》为题，系统解读我国生成式人工智能管理政策，分析政策对行业发展的规范与引导作用。

　　国家工业信息安全发展研究中心产业促进所所长助理杨晓伟围绕《人工智能背景下数据安全风险及应对策略研究》主题，系统梳理人工智能自身及应用带来的数据安全风险，分析国内外治理态势并提出应对策略。

　　复旦大学计算与智能创新学院执行院长杨珉聚焦《前沿AI系统安全评测与治理》主题，深入剖析了当前全球AI安全治理技术滞后于发展的现状，以及基础大模型、AI智能体系统存在的安全合规风险和潜在灾难性风险，并强调需通过动态持续的安全评测与治理技术创新，统筹推进AI发展与安全。

　　南开大学计算机学院院长、密码与网络空间安全学院院长刘哲理团队人员，以《大模型安全伦理评测与生成保障》为题，介绍了大模型评测标准建立、测评模型构建，以及幻觉缓解、越狱攻击防御、无隐私泄露推理机制等内容安全生成保障路径。

　　西安交通大学人才办副处长沈超团队人员，以《工业智能内在安全：从小模型到大模型到多模态具身智能》为题，深入研究从小模型、大模型到多模态具身智能的安全风险与防护，剖析了数据、模型、系统等多层面的安全隐患及链式威胁，以及在政策建言、标准制定、技术研发与行业应用等方面取得的系列成果。

　　浙江大学计算机科学与技术学院求是特聘教授纪守领团队人员，围绕《大模型提示词资产安全：窃取风险与防护》主题，分析提示词作为核心数据资产面临的窃取泄露风险，以及团队在风险识别与防御机制方面的研究进展。

　　广州大学网络空间安全学院教授齐佳音以《大语言模型风险分类分级体系构建探索》为题，立足社会技术系统理论等三大理论支柱，打造“内生安全+应用安全”双维驱动风险分析框架，构建系统性的大语言模型风险分类分级体系。

　　北京邮电大学网络空间安全学院副院长张熙聚焦《针对大模型的自演化攻击与协同防御》的主题，阐述大模型面临的自演化、协同化攻击新挑战，并介绍团队在自演化攻击动态评估工具研发、协同防御框架构建方面的技术突破。

　　本次论坛通过权威专家的深度研讨和成果发布，在大模型与智能体安全治理框架、风险防控、评测技术、数据安全策略等方面形成多项共识。论坛内容既有对当前大模型与智能体安全痛点的实践分析，也有对前沿防控技术的前瞻探索；既有对大模型与智能体治理机制的深入研讨，也有对合作模式的创新思考；必将为行业提供多元视角与实用参考，为我国人工智能大模型安全与治理提供了理论支撑与实践路径，助力人工智能产业在安全可靠的轨道上高质量发展。（记者赵鹏超）

[ 责编：张晨昊 ]

阅读剩余全文（）