点击右上角微信好友
朋友圈
请使用浏览器分享功能进行分享
10月8日,权威评测平台CyberSec-Eval更新了其CS-Eval数据集的评测结果。CyberSec-Eval(CS-Eval)是目前国内外最具代表性与专业性的网络安全大模型评测基准之一,由阿里安全、复旦大学、中国科学院大学联合构建,在2024年上线。目前基于CyberSec-Eval2024年5月的数据集进行评测。
澜砥威胁检测垂直大模型(版本N2-1008)、ShieldMind-R1及Trendyol-Cybersecurity-LLM-v2-Max在本次评测中包揽前三名。
CyberSec-Eval综合排名TOP10
该榜单测试具备以下几个核心特点:覆盖全面:涵盖11大类网络安全领域、42个子类任务,覆盖知识型与实战型双重维度;贴近实战:聚焦真实安全场景下的理解、推理与决策能力评估;客观公正:采用标准化测试集与评分机制,为行业提供可比对、可复现的参考依据。
据悉,数据集构建团队引入了OpenAI、LLaMa、智谱AI、Mistral AI等国内外主流通用模型作为对比。鹏城实验室、中科院大学等知名研发机构,阿里云安全等互联网安全团队,启明星辰、奇安信等知名安全企业陆续加入测试,榜单排名持续动态变化。(点击查看榜单)
本次排名第一的澜砥威胁检测垂直大模型N2分支基于安天自研的模型结构结合DeepSeek V3的权重迁移训练而来,于2025年9月9日首次提交测试并于次日公开,综合排名进入前三。该团队综合使用增强学习、前缀微调和经过修改的StableSPAM优化器,进行持续改进,并根据评测结果补充了相关领域的语料。在经过近30天的持续训练后,于10月8日以综合成绩91.51分获得榜单综合平均排名第一,并在业务连续性与应急响应恢复、安全架构设计、漏洞管理与渗透测试、AI与网络安全评测中取得四个单项第一名或与单项第一持平成绩。
相关负责人介绍,上述该模型由安天自主研发,主要面向二进制、脚本等对象进行分析鉴定,突破开源模型局限,将检测文件的大小扩展到数百兆字节级别(亿Token上下文),在处理二进制数据时提供500~1000倍的性能。目前,基于该模型的澜砥威胁检测生成式算法和相关服务均已通过国家网信办备案。(雷渺鑫)