点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:常识推理取得新突破!认知智能国家重点实验室登CSQA 2.0榜首
首页> 网安频道> 技术前沿 > 正文

常识推理取得新突破!认知智能国家重点实验室登CSQA 2.0榜首

来源:光明网2022-04-15 15:25

  近日,由科大讯飞承建的我国认知智能国家重点实验室,以76.06%的成绩登顶常识推理挑战赛CommonsenseQA 2.0,刷新世界纪录,在让机器“能理解、会思考”上迈出一大步。

  CommonsenseQA 2.0是艾伦人工智能研究院(Allen Institute for AI)于2021年主导发布的国际常识推理评测数据集,旨在评估机器对常识知识的理解及掌握水平,吸引了包括Google、Allen Institute for AI、华盛顿大学等众多国际顶尖机构参与挑战。科大讯飞首次参赛即创新性地提出ACROSS模型,以全新深度学习算法绝对优势,刷新机器常识推理水平世界纪录。

常识推理取得新突破!认知智能国家重点实验室登CSQA 2.0榜首

  从做“选择题”到做“判断题”,机器学会常识推理有多难?

  常识推理(Commonsense Reasoning)是NLP最重要的前进方向之一,其目的是帮助计算机学习常识知识,并利用所掌握的知识进行深层次的理解及推理。该领域的进展及技术突破对人工智能发展具有重要的意义。

  当前典型的阅读理解模型所关注的问题类型主要是事实类问题,这类型的问题答案往往能直接在原文中找到,然而如何基于常识和背景知识进行推理以获得答案仍旧是一个巨大的挑战。

  CommonsenseQA正是为了训练机器像人类一样基于先验知识结合现实情况作答能力而设置的数据集。当人们回答问题时,往往会利用自身了解的知识结合特定的背景来判断问题答案。比如常识、背景知识、空间关系、科学事实、社会惯例等。但是如何让机器学会常识及背景知识并进行准确推理,仍然是一个巨大的挑战。

  CommonsenseQA 2.0是一个二元分类数据集,包含14343个问题,主要分为训练/开发/测试集,需要判断常识性陈述是对还是错。1.0版本所考察的问题,是基于现有常识知识库ConceptNet中的知识三元组构建的,这使得机器在处理该任务时,有能直接聚焦参考的知识。相比较1.0的“选择题”,2.0“判断题”挑战难度更高,仅给定一个主题实体或概念、一个常识类关系(且关系不一定在现有知识库出现),让人类以自然语言的方式去构造机器较难掌握的常识知识。

  该构造方法所构造的常识推理问题具有庞大的想象空间,大部分在当前知识库中并未覆盖,无疑显著增加了机器处理该类问题的难度。同时,该评测任务数据构造过程中,还通过人与机器不断博弈对抗的方式,不断迭代设计,最终确定的问题集合基本是当前主流算法都完成得不好的问题。

  目前以科大讯飞为代表的中国人工智能力量在常识推理领域中已有很大的进步,但是仍远低于人类94.1%的水平,可见在常识性推理方向仍有很大挑战和进步空间。

  科大讯飞提出ACROSS创新方法破解难题

  在CommonsenseQA 2.0这项颇具挑战的常识推理评测任务上,业界主流的中等大小预训练模型方法也只能取得55%的水平,略高于随机猜测平均水平。此前国际上该任务的最优方法,通过1750亿级参数量大小的GPT3模型生成针对CommonsenseQA 2.0常识推理问题的相关知识,并基于T5模型进行融合处理,该方法取得了73%的准确率。

  本次由科大讯飞承建的认知智能国家重点实验室团队创新提出的面向常识知识推理的ACROSS(Automatic Commonsense Reasoning on Semantic Spaces)模型,是继2016年科大讯飞提出神经联想模型NAM(Neural Association Model),并取得Winograd Schema Challenge冠军后的又一力作。

  该模型实现了统一语义空间下外部知识的有效融合,显著改进了超大规模预训练模型所存在的问题,在CommonsenseQA 2.0任务上取得76%的准确率。

  该评测的常识推理问题,不论在ConceptNet等知识库,或者互联网上,都较难找到直接的答案。从人类进行常识知识运用及推理的习惯出发,对于一个复杂的问题,首先需要查阅相关知识库或典籍,其次会借助互联网搜索去查找相关信息。ACROSS模型正是借鉴该思路,充分收集知识库、互联网相关信息,在统一的语义空间中进行融合处理,最后赋予超大规模预训练模型更强的知识输入,实现准确的常识知识推理。该方法结果也一定程度上证明了机器已初步具备对于各类复杂文本信息及知识的深入理解及运用能力。(黎梦竹)

[ 责编:李政葳 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 中泰“蓝色突击-2025”海军联合训练闭幕

  • 特朗普签署行政令对贸易伙伴征收“对等关税”

独家策划

推荐阅读
2025年4月1日,北京怀柔慕田峪长城内外山花盛开,美丽的春花把古长城打扮的多姿多娇,犹如春天里一幅壮美的风景画
2025-04-02 15:44
2025年4月1日,船舶航行在安徽省合肥市庐江县境内的引江济淮航道上,标志着菜子湖湿地候鸟越冬季禁航结束,菜(子湖)巢(湖)线恢复通航
2025-04-01 15:40
2025年3月31日,江苏苏州吴中区光福镇,太湖之滨,桃花、樱花、油菜花等竞相绽放,生态优美,春景如画
2025-04-01 15:31
用镜头记录城市更新 青岛首届“百家媒体看改变”活动圆满闭幕
2025-03-20 10:14
"昭君杯"首届全国老年合唱大赛在北京国家大剧院正式启动
2025-03-19 16:10
2025年2月25日,云南省昭通市绥江县,新市金沙江特大桥施工现场,工人正加紧施工。
2025-02-26 15:41
2025年2月7日,重庆市巫山县曲尺乡月明村一大片梅花竞相开放、灿若红霞,游客和市民前来游玩打卡,尽享春日的快乐和惬意
2025-02-08 14:52
2025年2月5日,福建省福清市石竹山风景区,一场非遗英歌舞、建瓯挑幡等非遗表演正在进行,让游客感受中华优秀传统文化魅力,丰富景区文化内涵和游览品质
2025-02-06 15:55
2025年1月20日,江西省赣州市章贡区城市中央公园内,游船与湖水、植被、高楼相互映衬,呈现出一幅冬日多彩美丽生态画卷
2025-01-20 15:30
2025年1月16日,受低温天气影响,山西省运城盐湖出现冬季独特的“硝花”景观,水面上的硝花形态各异晶莹剔透,美不胜收。
2025-01-16 15:56
一位“行者”行走在广袤的沙漠中,遮掩着绝世的面庞,一面“古镜”掩埋于厚重的沙下,刻满了时间的裂痕。
2025-01-13 17:25
2025年1月9日,重庆市酉阳土家族苗族自治县桃花源国家森林公园白雪皑皑,雪景如画
2025-01-09 15:24
关爱卡寒假公益行 助力云南各族青少年儿童梦想起航
2025-01-08 14:42
2025年1月5日,在山西太原南站开往呼和浩特东站的D4022次列车前,游客自拍合影。
2025-01-06 16:01
2024年12月8日,广西梧州岑溪市岑城镇木榔村,生态田园中阡陌纵横线条分明,冬韵如画。
2024-12-10 16:48
2024年12月10日,贵州省黔西市绿化白族彝族乡大海子村,青山环绕树木葱茏,构成一幅美丽的生态画卷。
2024-12-10 16:40
2024年12月6日,古城苏州街头,成片的银杏、红枫等树木色彩斑斓满目缤纷,成为一道迷人的风景。
2024-12-06 15:48
2024年12月6日,初冬时节,山东省青岛市即墨区灵山街道花卉种植基地的大棚里一片繁忙,种植户忙着管护花卉。
2024-12-06 15:48
2024年11月30日,初冬时节,河南省南阳卧龙岗文化园内,树木换上"新装",宛如一幅五彩斑斓的画卷,吸引不少市民、游客前往赏景。
2024-11-30 18:34
民以食为天,一日三餐承载着居民的幸福感。
2024-11-27 18:59
加载更多