ChatGPT是个通才,可以与各行各业的人们对话,因为它用来训练的语言,来自整个网络和人类所有的知识宝库,并且建立在一个看似无所不包的知识体系之上。
(资料图)
无论是ChatGPT之类的聊天机器人,还是其他的内容生成技术与应用,背后都是日益强大的学习和训练的计算系统,它们被称为大型语言模型(LLM),动辄设置成千上万亿个参数。机器很难像人类一样通过推理来进行有效的学习,所以机器学习的能力很大程度上依赖于海量的数据。
但是,人类的语言是有限的,当计算机建立起越来越巨大的算力和强大的算法,自然语言作为“原料”供应,是不是终有一天像石油一样,被人类开采枯竭?当前的机器学习模型依赖于不断增长的巨大数据集,其发展趋势是否可能会放缓?
是的,语言数据资源是有限的,高质量的语言数据更是有限的。
来自阿伯丁大学、麻省理工大学、图宾根大学的Pablo Villalobos等6位计算机科学家,近日发布了一篇论文,名为《我们会用完数据吗?机器学习中数据集缩放的局限性分析》。他们开发的概率模型,估算了2022年至2100年之间可用的语言和视觉数据的总量,估计了语言和视觉模型训练数据集规模的演变趋势,试图发现由于可用数据耗尽而导致的趋势的极限。
目前绝大多数存量数据是用户生成的,存储在社交媒体平台、博客、论坛等。有三个因素决定了在一个给定的时间段内产生多少内容:人口数量、互联网渗透率、每个互联网用户产生的平均数据量。
互联网上的大部分文本数据对训练大型语言模型(LLM)都没有用,专业人士通常只使用高质量的数据来训练模型,因为这是他们希望模型学习和效仿的语言类型。常见的高质量数据的来源是书籍、新闻文章、科学论文、维基百科和过滤后的网页内容。这些数据源的一个共同特性是,它们经过了质量和有用性的筛选。例如,在新闻、科学文章或开源代码项目中,有用性必须由专业标准(如同行评议)的筛选产生。
他们发现,语言数据枯竭情况比视觉数据严峻得多。
语言和视觉模型的数据存量的增长速度比训练数据集的大小慢得多,所以如果按照目前的趋势继续下去,数据集最终会因为数据枯竭而停止增长。
对于语言模型来说,数据耗尽的情况将在2030年到2040年之间发生。语言大模型的训练数据主要来自互联网,现在的模型越做越大,已经把网上能收集到的网页数据用的差不多了,或者说随着算力投入的进一步增加,基本上能够把网络上收集到的数据全部用尽。
近在眼前的担忧是,高质量语言数据在 2026 年之前耗尽。
高质量数据增长的放缓是不可避免的,对于高质量的语言数据来说尤其如此。高质量的数据集通常包括了50%的用户生成内容,15%~20%的书籍,10%~20%的科学论文,近10%的代码和近10%的新闻。
研究人员估算了数字化书籍、公共GitHub和科学论文中可用文本的全部数量,并假设其占据高质量数据集的30%到50%之间,从而预测出当前高质量语言数据的总存量为9万亿(即9e12,上下限大概为4.6万亿到17万亿)个单词,每年增长率为 4% 到 5%。以高质量语言数据库作为上限来预测语言数据集的增长,放缓发生得更早,在2026年之前。
相比之下,低质量语言数据的存量在69万亿~7.1亿亿个单词之间,当前增长率在6.41%至17.49%之间。其中,谷歌这样资金雄厚的大公司可用的数据存量约为100万亿个单词;所有科技公司可用的约为1000万亿个单词;全人类拥有约1亿亿个单词,也包括了所有的短信、电话和视频会议等所产生的数据。低质量数据集先是随着时间推移会快速增长,达到2030年后,增长会大幅放缓,直到耗尽数据存量。
视觉数据的情况要复杂一些。
现在互联网上的存量视觉数据数量在8.1万亿到23万亿之间,目前的年增长率在8%左右,视觉模型数据耗尽的情况将在2030年到2060年之间发生,相对于语言模型来说,目前看起来情况还没有那么严重。IDEA研究院计算机视觉与机器人研究中心讲席科学家张磊博士认为,主要原因是视觉数据的维度和复杂度要更高,使得现有模型能够使用的数据量和网上存在的数据量相比还有比较大的差距。
“视觉数据更复杂,视觉方面的问题也更多样化。现在的视觉大模型通常都是针对全图(whole image)理解的预训练,即模型只是针对全图做分类或图文检索类的学习,但是视觉还有很多细粒度的问题,比如物体检测、视觉分割等,大模型学到的全图表征用于细粒度问题也会性能递减。这些困难使得视觉模型还不能简单地用增加数据的方法来解决。”
张磊博士还强调,视觉模型继续增加数据量,获得的增益也会逐渐变小,这也需要视觉算法方面的进一步改进,因此,视觉大模型目前还没有达到单纯增加数据提高效果的阶段,还有更多的问题需要研究。
如果未来数据效率提升,大模型用更少的数据就能实现相同的功能;如果证明缩放定律是错误的,即使数据效率没有额外的提升,或许还有更好的方法来使用更少的数据;如果通过迁移学习,多模态模型可能被证明比单一模态的模型表现得更好,这将有效地增加数据存量,从而扩大所有数据模态存量的组合。
合成数据将来是一个重要的数据来源,这一点受到最近腾讯发布的AIGC报告的极度看好。MIT科技评论将AI合成数据列为2022年10大突破性技术之一;Gartner也预测称,到2030年合成数据将彻底取代真实数据,成为训练AI的主要数据来源。
此外,一些非自然语言的数据也会大量产生。例如,如果大规模采用自动驾驶汽车将导致空前数量的道路视频记录;如果拥有充足的预算(如有政府或大公司的参与),也许能够增加数据的产出,特别是在针对特定领域的高质量数据。
目前一个问题仍在摆在眼前:更多的数据难道一定就会“喂养”出更好的模型吗?也不一定。正如前文张磊博士所说的,“目前视觉模型的相关困难还不能简单地用通过增加数据的方法来解决。”