点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:中国网络空间安全协会发布首批中文基础语料库
首页> 网安频道> 要闻 > 正文

中国网络空间安全协会发布首批中文基础语料库

来源:光明网2023-12-22 16:25

  光明网讯(记者 李政葳)新一代人工智能是推动科技跨越发展、产业优化升级、生产力整体跃升的驱动力量。人工智能的快速发展迫切需要高质量、大规模、安全可信的语料数据资源。近日,中国网络空间安全协会人工智能安全治理专业委员会面向社会发布了用于大模型的首批中文基础语料库。

  语料数据通常指用于人工智能大模型训练的文本库或数据集合,具有大规模性、多样性、动态性等特点。高质量大规模的基础语料数据是大模型训练算法的关键基础资源。目前,国内大模型语料库建设在取得一定成就的同时还存在着一些挑战,高质量中文基础语料库建设已经成为国内大模型科研攻关和产业发展亟待解决的重要课题。

  在国家相关业务部门指导下,网安协会人工智能安全治理专委会会同国家权威机构,发挥企业、高校和科研单位协同优势,通过“共建—共享”机制,汇聚一批高质量可信数据,经过去重、过滤等技术手段,形成并对社会发布首批120G中文基础语料,包括1亿余条数据,500亿个token。用户登录中国网络空间安全协会网站,点击“中文基础语料库”链接,通过注册、认证等程序,就能够下载相关语料。中文基础语料库的发布,是各界协同汇聚形成高质量语料库的初步成果。

  网安协会人工智能安全治理专委会负责人表示,语料库建设是一项长期性、专业性的工作,需要遵循相应法规、标准和规范,需要合力共建、突破创新,推动形成科学有效的语料库汇聚、处理、使用机制,为国家人工智能技术创新和产业发展赋能。

[ 责编:雷渺鑫 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 青海湖畔冬日牧羊图

  • 新版《丝路花雨》舞动金城兰州

独家策划

推荐阅读
民族文化宫里珍宝千千万,但说到“镇馆之宝”,首先想到的便是1300多年前文成公主带到西藏的长鼓,许多观众慕名而来只为一睹它的“芳容”。
2025-11-28 13:02
为庆祝新疆维吾尔自治区成立70周年,“异元汽车杯”首届新疆国际摄影大赛9月28日正式启动。
2025-09-29 14:31
2025年4月10日,安徽省芜湖市无为市昆山镇三公山茶叶种植基地,千亩高山野生杜鹃在翠绿的茶园之间绚丽绽放,美轮美奂,美不胜收
2025-04-10 15:13
2025年4月1日,北京怀柔慕田峪长城内外山花盛开,美丽的春花把古长城打扮的多姿多娇,犹如春天里一幅壮美的风景画
2025-04-02 15:44
2025年4月1日,船舶航行在安徽省合肥市庐江县境内的引江济淮航道上,标志着菜子湖湿地候鸟越冬季禁航结束,菜(子湖)巢(湖)线恢复通航
2025-04-01 15:40