点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:繁荣背后存隐忧,美AI巨头被控秘密“侵吞”数据
首页> 网安频道> 数字安全 > 正文

繁荣背后存隐忧,美AI巨头被控秘密“侵吞”数据

来源:科技日报网2024-04-18 15:10

  人工智能(AI)迅速发展离不开对模型的训练。然而,高质量数据短缺以及部分领域封闭式的数据生态似乎成为AI发展的掣肘。

  据多家外媒报道,OpenAI、谷歌和Meta等公司正寻求在线信息来训练最新的AI系统。但他们无视既定政策,蓄意改变规则,并试图规避版权法。

  收集数据“走捷径”

  英国《泰晤士报》近日刊文指出,科技巨头一直在“走捷径”为其AI系统收集训练数据。OpenAI开发了一款名为Whisper的语音识别工具,可将YouTube视频中的音频文件转录为纯文本文档,从而创建一个口语对话数据源,帮助训练其下一代基于文本的GPT-4算法。

  美国《商业内幕》网报道称,YouTube在其官网明令禁止“独立”于其之外的应用程序使用其视频内容。而OpenAI的数据并非意外收集的。

  实际上,OpenAI员工知道这样做会涉足法律灰色地带。OpenAI总裁格雷格·布罗克曼甚至亲自参与了所使用视频的收集。但OpenAI依然认为这是合理的,最终获得了超过100万小时的转录视频。

  最大的谜团在于,OpenAI如何访问足够多的YouTube视频来完成这项工作。

  当OpenAI首席技术官米拉·穆拉蒂被问及该公司是否使用YouTube视频来训练Sora时,她表示并不确定。当再次被问及训练数据的来源时,她表示不会透露细节。

  《纽约时报》称,与OpenAI一样,谷歌也转录了YouTube视频,为其AI模型收集文本,这可能侵犯了视频创作者的版权。去年,谷歌还更改了其服务条款。此番动机意图明显,即允许AI对来自谷歌文档中公开可用文档的数据以及上传到谷歌地图的餐馆评论等其他材料进行训练。

  AI面临“数据瓶颈”

  对于科技公司来说,庞大的数据“肥料”是生成式AI的核心养分,也是大模型发展的必争之地。唯有足够的数据才能指导技术即时生成与人类创作相似的文本、图像、声音和视频,实现系统创新。

  但随着AI发展,现有互联网信息量的不足、高质量文本数据的匮乏以及科技巨头优质数据的垄断,都可能导致AI“养分不足”。即便谷歌和Meta拥有数十亿用户,每天都会产生搜索查询和社交媒体帖子,但这些数据在很大程度上受到隐私法和自身政策的限制,无法让AI利用这些内容。

  这些科技公司的处境似乎十分窘迫。据人工智能研究机构Epoch称,科技公司最快将于2026年耗尽互联网上的高质量数据。这些公司使用数据的速度超过了产生数据的速度。

  Meta同样也遇到了训练数据可用性限制。该公司打算采取一些措施,例如支付图书许可费用,甚至直接收购一家大型出版商。Meta也曾作出以隐私为中心的变革,因此它使用消费者数据的方式显然也受到了限制。

  在人类数据告急的情况下,不少公司甚至试图用AI“喂”AI。包括微软、OpenAI在内的公司正在把大模型生成的结果,也就是所谓的“合成数据”,“喂”给参数更小的模型。但有研究认为,合成数据最终将让AI“自食其果”。

  因版权被多方状告

  《纽约时报》去年起诉OpenAI和微软,称其在未经许可的情况下使用受版权保护的新闻文章来训练AI聊天机器人。OpenAI和微软回应称,这属于“合理使用”,或者说是版权法允许的,因为他们为了不同的目的而改造了这些作品。

  去年,超过1万个贸易团体、作者、公司和其他人士向美国版权局提交了有关AI模型使用创意作品的意见。

  生成式AI的迅速兴起引发了一场全球性的高质量数据竞赛。然而,在这个新领域中,关于什么是合法的、道德的,没有明确规定。

  《商业内幕》网称,目前,谷歌、OpenAI和其他科技公司正在辩解,认为将受版权保护的内容用于AI模型训练是合法的,但监管机构及法院尚未对此作出裁决。

  美国电影制作人、前演员及作家贾斯汀·贝特曼告诉版权局,AI模型在未经许可或付费的情况下获取了其作品内容。她称,“这是美国最大的盗窃案。”(科技日报记者 张佳欣)

 


[ 责编:王一涵 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • “五一”假期文旅热

  • 京广铁路整修忙

独家策划

推荐阅读
奔跑吧·少年2024年内蒙古自治区棒垒球邀请赛在鄂尔多斯市康巴什区开赛。
2024-04-20 17:03
4月2日,随着57652次检测车从南充北站5道缓缓驶出,标志着新建汉中至巴中至南充铁路南充至巴中段(以下称"巴南高铁")启动联调联试,进入工程验收关键阶段,为全线早日开通奠定了坚实基础
2024-04-03 15:11
为切实织密森林“防火网”各地组织人员巡查防火。
2024-04-03 15:11
2024年3月31日,“知音湖北 遇见浪漫孝感”春赏花活动在湖北省孝感市金卉庄园景区启动。金卉庄园花团锦簇,五彩斑斓花卉竞相绽放。人们穿梭在花海之间,享受明媚春光。
2024-04-02 15:40
2024年3月23日,由中国服装设计师协会主办的2024秋冬中国国际时装周在北京开幕。
2024-03-26 21:07
3月17日,原创独立设计师品牌SHANG1 BY SHANGYI 2024秋冬系列时装发布会在北京举行。
2024-03-18 16:39
2024年2月28日,新疆维吾尔自治区巴音郭楞蒙古自治州博湖县境内的博斯腾湖出现推冰景观。
2024-02-29 18:59
云南省曲靖市罗平县马街镇钻天坡,盛开的油菜花梯田在初升太阳映照下,勾勒出一幅田园春景图
2024-02-23 10:59
美丽的三亚湾
2024-01-20 17:42
2024年1月12日,江西省吉安市吉州区庐陵文化生态园层林尽染,色彩斑斓,市民徜徉其间,尽享生态之乐。
2024-01-13 19:43
2023年12月26日,在云南省红河哈尼族彝族自治州元阳县新街镇黄草岭村附近,游客在冬樱花与梯田边游览。
2023-12-26 15:39
2023年12月12日,新疆哈密市巴里坤县第十九届冰雪文化旅游节采冰仪式在高家湖二渠水库进行。仪式主要展示了"头冰"的开采上岸过程。开幕式上还举行迎风旗、祈福词、喝出征酒等仪式。
2023-12-13 16:08
2023年12月13日,河北省正定古城迎来降雪,古城内外银装素裹,犹如一幅淡雅的水墨画,美如画卷。
2023-12-13 15:59
2023年11月28日,贵州省六盘水市明湖国家湿地公园层林尽染,景色迷人。
2023-11-29 15:42
2023年11月28日,江西吉安长塘镇中心小学,老师指导学生剪纸。
2023-11-29 15:42
三角梅原产于巴西,现主要分布在中国、秘鲁、阿根廷、日本、赞比亚等国家和地区。其中,以海南三角梅最为出名。
2023-11-29 11:13
2023年11月23日清晨,朝霞初现,三峡库区湖北省宜昌市秭归县沿江公路G348国道的绝壁岩体上,工人们正在铺设防护网,以防止岩崩和落石。
2023-11-24 15:15
2023年11月23日,黑龙江哈尔滨,哈尔滨站工作人员正在清理站台积雪。
2023-11-23 16:02
2023年11月21日,甘肃敦煌,首趟"敦煌号"铁海联运国际货运班列装载1000吨石棉驶出,经天津港通过铁海联运发往泰国曼谷。
2023-11-21 16:55
2023年11月21日,江苏省如皋市龙游河生态公园,色彩斑斓的树木与一河碧水相应成趣。
2023-11-21 16:55
加载更多