ChatGPT是个通才,可以与各行各业的人们对话,因为它用来训练的语言,来自整个网络和人类所有的知识宝库,并且建立在一个看似无所不包的知识体系之上。
(相关资料图)
无论是ChatGPT之类的聊天机器人,还是其他的内容生成技术与应用,背后都是日益强大的学习和训练的计算系统,它们被称为大型语言模型(LLM),动辄设置成千上万亿个参数。机器很难像人类一样通过推理来进行有效的学习,所以机器学习的能力很大程度上依赖于海量的数据。
但是,人类的语言是有限的,当计算机建立起越来越巨大的算力和强大的算法,自然语言作为“原料”供应,是不是终有一天像石油一样,被人类开采枯竭?当前的机器学习模型依赖于不断增长的巨大数据集,其发展趋势是否可能会放缓?
是的,语言数据资源是有限的,高质量的语言数据更是有限的。
来自阿伯丁大学、麻省理工大学、图宾根大学的Pablo Villalobos等6位计算机科学家,近日发布了一篇论文,名为《我们会用完数据吗?机器学习中数据集缩放的局限性分析》。他们开发的概率模型,估算了2022年至2100年之间可用的语言和视觉数据的总量,估计了语言和视觉模型训练数据集规模的演变趋势,试图发现由于可用数据耗尽而导致的趋势的极限。
目前绝大多数存量数据是用户生成的,存储在社交媒体平台、博客、论坛等。有三个因素决定了在一个给定的时间段内产生多少内容:人口数量、互联网渗透率、每个互联网用户产生的平均数据量。
互联网上的大部分文本数据对训练大型语言模型(LLM)都没有用,专业人士通常只使用高质量的数据来训练模型,因为这是他们希望模型学习和效仿的语言类型。常见的高质量数据的来源是书籍、新闻文章、科学论文、维基百科和过滤后的网页内容。这些数据源的一个共同特性是,它们经过了质量和有用性的筛选。例如,在新闻、科学文章或开源代码项目中,有用性必须由专业标准(如同行评议)的筛选产生。
他们发现,语言数据枯竭情况比视觉数据严峻得多。
语言和视觉模型的数据存量的增长速度比训练数据集的大小慢得多,所以如果按照目前的趋势继续下去,数据集最终会因为数据枯竭而停止增长。
对于语言模型来说,数据耗尽的情况将在2030年到2040年之间发生。语言大模型的训练数据主要来自互联网,现在的模型越做越大,已经把网上能收集到的网页数据用的差不多了,或者说随着算力投入的进一步增加,基本上能够把网络上收集到的数据全部用尽。
近在眼前的担忧是,高质量语言数据在 2026 年之前耗尽。
高质量数据增长的放缓是不可避免的,对于高质量的语言数据来说尤其如此。高质量的数据集通常包括了50%的用户生成内容,15%~20%的书籍,10%~20%的科学论文,近10%的代码和近10%的新闻。
研究人员估算了数字化书籍、公共GitHub和科学论文中可用文本的全部数量,并假设其占据高质量数据集的30%到50%之间,从而预测出当前高质量语言数据的总存量为9万亿(即9e12,上下限大概为4.6万亿到17万亿)个单词,每年增长率为 4% 到 5%。以高质量语言数据库作为上限来预测语言数据集的增长,放缓发生得更早,在2026年之前。
相比之下,低质量语言数据的存量在69万亿~7.1亿亿个单词之间,当前增长率在6.41%至17.49%之间。其中,谷歌这样资金雄厚的大公司可用的数据存量约为100万亿个单词;所有科技公司可用的约为1000万亿个单词;全人类拥有约1亿亿个单词,也包括了所有的短信、电话和视频会议等所产生的数据。低质量数据集先是随着时间推移会快速增长,达到2030年后,增长会大幅放缓,直到耗尽数据存量。
视觉数据的情况要复杂一些。
现在互联网上的存量视觉数据数量在8.1万亿到23万亿之间,目前的年增长率在8%左右,视觉模型数据耗尽的情况将在2030年到2060年之间发生,相对于语言模型来说,目前看起来情况还没有那么严重。IDEA研究院计算机视觉与机器人研究中心讲席科学家张磊博士认为,主要原因是视觉数据的维度和复杂度要更高,使得现有模型能够使用的数据量和网上存在的数据量相比还有比较大的差距。
“视觉数据更复杂,视觉方面的问题也更多样化。现在的视觉大模型通常都是针对全图(whole image)理解的预训练,即模型只是针对全图做分类或图文检索类的学习,但是视觉还有很多细粒度的问题,比如物体检测、视觉分割等,大模型学到的全图表征用于细粒度问题也会性能递减。这些困难使得视觉模型还不能简单地用增加数据的方法来解决。”
张磊博士还强调,视觉模型继续增加数据量,获得的增益也会逐渐变小,这也需要视觉算法方面的进一步改进,因此,视觉大模型目前还没有达到单纯增加数据提高效果的阶段,还有更多的问题需要研究。
如果未来数据效率提升,大模型用更少的数据就能实现相同的功能;如果证明缩放定律是错误的,即使数据效率没有额外的提升,或许还有更好的方法来使用更少的数据;如果通过迁移学习,多模态模型可能被证明比单一模态的模型表现得更好,这将有效地增加数据存量,从而扩大所有数据模态存量的组合。
合成数据将来是一个重要的数据来源,这一点受到最近腾讯发布的AIGC报告的极度看好。MIT科技评论将AI合成数据列为2022年10大突破性技术之一;Gartner也预测称,到2030年合成数据将彻底取代真实数据,成为训练AI的主要数据来源。
此外,一些非自然语言的数据也会大量产生。例如,如果大规模采用自动驾驶汽车将导致空前数量的道路视频记录;如果拥有充足的预算(如有政府或大公司的参与),也许能够增加数据的产出,特别是在针对特定领域的高质量数据。
目前一个问题仍在摆在眼前:更多的数据难道一定就会“喂养”出更好的模型吗?也不一定。正如前文张磊博士所说的,“目前视觉模型的相关困难还不能简单地用通过增加数据的方法来解决。”
标签:
精彩推荐
交警严查超标电动自行车挪用“白牌” 截至昨晚6时,处罚电动自行车违法行为共计6585笔;下一步将...
明起寒潮来袭 北方气温普降10℃以上 中央气象台预计,本周日北京平原地区最低气温降至-4℃左右...
多种蔬菜价格降幅达五成 包括菠菜、蒿子秆等 预计本月中旬蔬菜恢复供需平衡 本报讯(记者...
北京周日最低气温或达-4℃ 本报讯(记者 赵婷婷)北京青年报记者昨天从中央气象台获悉,新一股...
昌平一家四口确诊新冠肺炎 天通北苑第二社区升级为中风险地区 朝阳两涉疫校区及16所学校停课 ...
人社部发布通知 事业单位招聘可适当降低学历要求 昨日,人社部发布《关于职业院校毕业生参加...
民警马拓 在地铁里看见人生百态 写下200多个故事 他们积极努力生活的样子 全都是最好的素材 ...
60+达人 通信老兵贺春立:用镜头记录广外“变迁” 【发生地点】北京市西城区广外街道 【事...
100个北京新网红打卡地本月揭晓 “2021北京网红打卡地”评选活动经过全网征集后,共有300家打卡...
养老资讯 为老助老 快递小哥加入志愿服务队 【发生地点】北京市海淀区学院路街道 【事件...
新华社南昌11月2日电 题:与病毒赛跑,让滞留者早回家——聚焦江西铅山疫情防控 新华社记者郭远...
新华社重庆11月2日电(记者吴燕霞、周闻韬)记者2日晚从重庆市政府新闻办公室获悉,11月2日16时40分,...
新华社北京11月2日电 题:生死逆行显担当 新华社记者樊曦、刘夏村 38年来,国家安全生产应急...
新华社石家庄11月2日电(记者闫起磊)记者从石家庄市疾控中心获悉,石家庄市本轮疫情调查溯源工作取得...
新华社北京11月2日电 题:黑暗中的一束光——记国家安全生产应急救援中心副主任兼总工程师肖文儒 ...
中新网重庆11月2日电 (梁钦卿)记者2日从重庆市新冠肺炎疫情防控工作新闻发布会获悉,重庆市九龙坡...
中新社南宁11月2日电(记者 林浩)“此次盛会不仅向世界展现了多元的中国民族音乐魅力,同时对推动中...
中新网厦门11月2日电 (李思源 蔡修权)“今年1至10月,我们安全保障进出港船舶超24万艘次,货物运...
重庆九龙坡新冠肺炎确诊病例轨迹公布→ 在11月2日举行的重庆市新冠肺炎疫情防控工作新闻发布会(...
(抗击新冠肺炎)成都金牛区开发小程序 满足封控区居民外卖网购需求 中新网成都11月2日电 (记者...
中新网广州11月2日电 (记者 程景伟)广东省文化和旅游厅2日发出关于进一步做好当前文旅市场疫情防...
中新网上海11月2日电(陈静 姜蓉)记者2日获悉,接协查通知,上海交通大学医学院附属上海儿童医学中...
中新网西宁11月2日电(王琳娜 祁妙)“我们都退休了,力所能及地为国家发一分热,心里感到很高兴。...
中新网南京11月2日电 (徐珊珊)江苏省应急管理厅11月2日发布回应称,当天在网络热传的《江苏省家庭...
新华全媒+|寒风中打响“德尔塔”合围之战 新华社哈尔滨11月2日电 题:寒风中打响“德尔塔”合...
资讯News
08-28
06-20
11-03
11-03
11-03
11-03
11-03
11-03
11-03
11-03
11-03
11-03
聚焦Policy
当好农民工的“护薪人” 近日,罗某等7名农民工在收到被拖欠的工资后,纷纷打电话向江西省南昌市...
“通讯录里所有人都知道我欠钱了” □ 本报记者 韩丹东 □ 本报见习记者 张守坤 ...
大连宝马车撞人案肇事司机被判死刑 本报讯 记者韩宇 10月29日,辽宁省大连市中级人民法院一审...
医院财务迷上网络赌博输光5000万元公款 □ 本报记者 马维博 □ 本报通讯员 汪宇堂 曹...
辊环车削 雕琢毫厘(工匠绝活) 【绝活看点】 23年来,雷虎始终扎根一线,改进钢材轧制工艺...
交警严查超标电动自行车挪用“白牌” 截至昨晚6时,处罚电动自行车违法行为共计6585笔;下一步将...
明起寒潮来袭 北方气温普降10℃以上 中央气象台预计,本周日北京平原地区最低气温降至-4℃左右...
多种蔬菜价格降幅达五成 包括菠菜、蒿子秆等 预计本月中旬蔬菜恢复供需平衡 本报讯(记者...
北京周日最低气温或达-4℃ 本报讯(记者 赵婷婷)北京青年报记者昨天从中央气象台获悉,新一股...
昌平一家四口确诊新冠肺炎 天通北苑第二社区升级为中风险地区 朝阳两涉疫校区及16所学校停课 ...