我们估计人类产生的的公共文本存量约为 300 万亿个token。如果趋势持续,语言模型将在 2026 年至 2032 年之间完全耗尽这一存量,或者如果过度训练,甚至会更早。 ——Epoch AI
在2006年,时任伊利诺伊大学教授的李飞飞(现为斯坦福大学教授)看到了互联网改变人工智能(AI)研究的潜力。语言学领域的研究已经识别出了8万个“名词同义词集”,即描述同一类事物的同义词集合。李飞飞推测,互联网上的数十亿张图片中,一定包含了这些同义词集的无数实例。如果能够收集足够多的这些图片,就可以创建一个超越以往任何AI训练资源的庞大数据库。她说“很多人关注模型,我们应该关注数据”。于是,ImageNet项目诞生了。
互联网不仅提供了图片,还为图像标注提供了资源。通过搜索引擎找到如猫、狗、椅子等的图片后,亚马逊的众包平台Mechanical Turk上的人对这些图片进行人工检查和标注。最终,构建了一个包含数百万经过校验的图片的数据库。正是使用了部分ImageNet数据训练的AlexNet在2012年展示了“深度学习”的巨大潜力,开启了上一个AI周期,也催生了依赖于大量标注数据的行业。
在这一轮AI周期中,AI的发展延伸到了大型语言模型(LLM),这些模型的训练也依赖于互联网数据,但方式有所不同。计算机视觉领域(CV)的经典训练任务是预测一张图片的内容(图片分类任务),但LLM训练的经典任务是基于上下文预测一段文本中被删除的词语。
这种训练方式不需要人工标注数据,系统可以自行空出词语,进行推理并通过“自监督训练”来评估答案的正确性。但这种方式需要大量的数据。一般来说,模型获得的文本越多、数据量越大,其性能就越好(Scaling Law)。 互联网正好就提供了数以百亿计的文本,它对LLM的意义就像沉积了亿万年的碳对现代工业的意义一样,是一种可以精炼成燃料的宝贵资源。
常见的训练数据来源是Common Crawl,一个包含500亿个网页的互联网档案。随着AI模型的发展,更多的数据被加入其中,如Books3——一个包含数千本书籍的数据库。然而,随着AI对文本数据需求的增长,互联网上的优质数据供给逐渐不堪重负。根据Epoch AI的估计,到2028年,互联网中的高质量文本数据将被完全利用完毕,行业将面临所谓的“数据墙”。中文互联网更严重,从“中文互联网正在崩塌”,到各大平台纷纷锁上大门,当大家意识到数据的价值后,便把它放进了保险库。如何应对这一壁垒,可能是AI未来发展中最棘手的问题之一,也可能是最有可能放缓其进程的问题。
AI模型越来越依赖互联网数据,但数据的版权问题也充满争议。许多用于训练大型语言模型的数据往往未经版权方的同意就被使用,一些AI公司甚至利用了付费墙后的内容。虽然AI公司会声称这种使用属于版权法中的“合理使用”范畴,但版权方并不买账。Getty Images起诉了图像生成公司Stability AI,指控其未经授权使用了其图片库。纽约时报则起诉了OpenAI和微软,指控其侵犯了数百万篇文章的版权。Stack Overflow、Reddit和X(前Twitter)现在都向AI公司收取费用。知乎也正通过乱码来干扰必应和谷歌等爬虫,从而限制其中文内容作为数据集被用于AI训练。
不同地区对这一问题的态度有所不同。日本和以色列采取了宽松的立场,以促进其AI产业的发展。欧盟则没有通用的“合理使用”概念,可能会更加严格。国内也仅仅是设立了国家数据局,明确了数据兼有生产资料和生产对象双重身份。
面对数据墙,AI领域提出了几种应对策略。其中一个关键的应对策略是专注于数据的质量而非数量。各家AI实验室不再盲目地使用整个互联网的数据来训练模型,而是更加重视数据的过滤、清洗和优化,确保模型能够从中提取到最有价值的内容。在过去的一年里(2024年),OpenAI的模型似乎不再“遥遥领先”了,大家的模型打得有来有回,这些模型在不同任务上的性能差异,就来自训练数据的构建。毕竟开源算法和模型的很多,开源数据集的却寥寥无几。
获取“真实世界的信息”至关重要,特别是当模型涉及大量推理时,学术教科书等权威资源变得格外宝贵。但如何在不同数据源之间找到最佳平衡点仍然是一门玄学。
在数据使用的过程中,模型还面临“灾难性遗忘”的问题——即当系统在某些类型的数据上训练过多时,可能会在擅长该领域的同时,遗忘先前学到的其他知识。因此,训练时数据的顺序也需要仔细考虑。如果把所有关于某个主题的数据(如数学)集中在训练过程的末尾,模型或许会在数学问题上表现出色,但同时就可能削弱了其它领域的能力。这种不平衡的训练方式加剧了灾难性遗忘的风险。
在数据既涉及不同领域,还涉及不同形式(模态)时,这些策略就变得更加复杂。由于新的文本数据供不应求,像OpenAI的GPT-4和Google的Gemini这样的领先模型在自监督学习过程中,除了使用文本外,还使用图像、视频和音频进行训练。然而,视频数据尤其棘手,因为视频文件包含的数据点极为密集。为简化问题,现有模型通常仅抽取部分帧进行简化处理,学界仍在寻找更高效的解决方案。
模型能力还可以通过在自监督学习产生的版本(预训练版本)基础上,使用额外的数据进行精细调整(微调)来提升。例如,“监督微调”就是向模型提供由人类收集或制作的问答对,来教模型什么是好的答案。另一种方法“基于人类反馈的强化学习”(RLHF),则是告诉模型答案是否满足提问者。
在RLHF中,用户对模型输出的质量进行反馈,这些反馈随后用于调整模型的参数(权重)。与聊天机器人进行的用户互动,如点赞或踩,对RLHF特别有用。这就是“数据飞轮”的机制:更多的用户带来更多的数据,这些数据又反过来优化更好的模型。AI公司密切关注用户向其模型提出的各种问题,然后收集数据以调整模型以涵盖这些主题。阿里、字节和Minimax等厂商纷纷掀起模型价格战,很难说没有这方面的考量。
随着互联网上的预训练数据逐渐枯竭,后期训练(Post-Training)的重要性日益凸显。像Scale AI和Surge AI这样的标注公司每年通过收集后期训练数据赚取数亿美元。Scale最近以140亿美元的估值筹集了10亿美元。如今的标注工作已经超越了Mechanical Turk的时代:顶尖的标注员每小时可赚取高达100美元。尽管后期训练有助于生成更好的模型,并能满足许多商业应用的需求,但这仍然只是增量改进,治标不治本。
除了逐步突破数据墙,还有一种解决方案是完全跳过它,也就是使用机器生成的合成数据。DeepMind(谷歌的子公司)推出的AlphaGo Zero模型就是一个很好的例子。该公司第一个成功的围棋模型是通过数百万场业余比赛的数据进行训练的,而AlphaGo Zero则完全没有使用现有的数据。相反,它通过在三天内与自己对弈490万次来学习围棋,并记录下成功的策略。这种“强化学习”教会了它如何通过模拟大量可能的回应来应对对手的招数,并选择成功概率最高的策略。
类似的方法也可以用于LLM,比如目前最强的开源大模型Llama 3.1。LLama3.1 的SFT数据里有相当比例是由模型生成的合成数据,而Gemma2 在SFT阶段的数据很大比例是由规模更大的模型合成的,证明了合成数据质量不比人工标注质量差。
那我们可以无限生成合成数据,左脚踩右脚登天吗?我认为答案是否定的。上个月发表在《Nature》的一项研究发现,在模型训练中“滥用”合成数据可能导致“不可逆的缺陷”。用模型合成的数据来微调模型,只需要重复几轮,模型就会胡言乱语,研究人员将这一现象称为“模型崩溃”。
更大的问题在于如何将这种方法扩展到医疗或教育等垂直领域。在游戏中,胜利的定义明确,而且更容易收集到某个举动是否有利的数据。在其他领域,这要复杂得多。关于“好”决策的数据通常是从专家那里收集的,但这既昂贵又费时,解决方案也不够全面。如何判断某个专家是否正确,这也是个套娃的问题。
获取更多数据将是保持AI快速进步的关键。不论是从专家来源获取的专门数据,还是机器生成的合成数据,AI的进步都取决于数据的持续供应。随着最容易获取的数据储备逐渐耗尽,AI行业也做出了许多努力来缓解这个问题:
但这些似乎都不可持续,必须寻找新的数据源或开发可持续的替代方案;或者从算法架构层面,设计出不依赖数据的新架构,顺势开启下一轮AI周期。