感谢 @知乎科技 邀请参加 AI 盐沙龙活动,下面是我讲述《大模型高效训练的关键技术》的现场实录。
大家下午好,荣幸参加贵乎的活动。我今天讲一下大模型训练的技术,我们做了一套大模型训练的工具,我觉得更偏下层一点,当然没有杨军老师那样更下层,介于编译器和大模型之间的那一层。
首先给大家展示一张图片,横坐标是时间,纵坐标是AI模型的参数量。从这张图片中可以看出,过去六年大模型的参数量上升了大概10万倍量级。因为2016年的时候,我们很清楚最好的大模型是ResNet50,只有2000多万的参数,到了2020年6月份GPT3出来了,当时是2000亿的参数,已经大了一万倍了,现在据说GPT4是MOE1.7万亿参数,又进一步增加了10倍。
我们知道从ResNet50到GPT4,可能不是深度学习了,是宽度学习更恰当一点。当然这是大模型的现状,它好的一点确实GPT4现在变得非常智能,但是不好的一点,我们也可以看一下互联网上数据,训练一下GPT4这个模型预算是6300万美元,这是OpenAI 的数据,站在学校的角度而言是很难做到的,需要工业界和学术界结合起来是比较现实的方案。这张图中还有一条线就是GPU的内存容量,可以看出每18个月上升1.7倍,上升速度没有英伟达的股价上升速度快,这也是一个现状。这也是为什么需要用成百上千的GPU训练大模型的根本原因。
这里列举了一些数字,现在已经更夸张了,之前训练GPT3的时候,我们用了V100,300万美金的价格,现在GPT4居然到了6000万美金的量级,整个成本变成了亟待解决和优化的问题了。
我介绍一下我个人做的事情,以及我做创业公司到底在干吗。一句话讲就是希望把大模型训练的成本能进一步降低,今年训练GPT3训练成本是300万美金,希望五年之后到七八万美金左右。我们设计了一个软件叫ColossaI,第一是异构的内存管理系统,大模型最大的挑战是内存开销太大了,假定我们是2000亿参数的话,即便用单精度存,2000亿就是800G内存,梯度也是800G内存,我们训练大模型都是800G内存,首先什么也没干已经需要3T的内存了,单个GPU只有80G或者100G。当然我们知道要存很多中间计算结果,包括输入数据越大的情况下,我们用传统的方式也是随着数据而增大的,内存变成了天文数字,所以优化内存是非常关键的地方。
我们独创的高效N维并行工作。李开复老师做了一家公司叫零一万物,因为OpenAI说自己用了10万张卡训练,他们的目标也是希望到那个量级,但是他们现在只用了200张卡。他们考虑的重要事情就是把200卡扩展到2万卡,能不能获得90倍的加速,或者能不能获得80倍的加速?因为现在用传统的方案去做的话,可能我从200卡到2万卡,虽然GPU速度增加了,但是效率只有20%、30%,从决策者的角度来看非常不值,我投资了这么多倍,只有30%的速度提升,我认为未来并行计算,分布式计算的空间优化还是很大的。由于是跨GPU和跨数据的优化,我们也在这层做了一些优化。
另外低延迟的推理系统。很荣幸智源悟道是我们公司第一个付费客户,两年前我们就是帮它优化GLM,因为模型越大之后,我们现在用GPT3或者GPT4,问一句话延迟还是很高的,低延迟的推理系统也是很重要的。这是目前ColossaI做的一些事情。
这里列举了一些实验的比较,主要跟最基础的基准比较,可以看出ColossaI可以快6到7倍,效率能是8倍大小的参数。
这里是ColossaI目前的社区发展情况,它的开源目前增长速度还是非常快的,已经超过了kafka、spark这些传统的软件,横坐标是时间,纵坐标是星数。
这是同赛道的软件比较,比如跟英伟达的Megatron-LM 和跟DeepSpeed相比。
ColossaI目前做的很多事情也是跟全球AI生态彻底绑定,全球的生态还是一体的,我觉得还是有很多相互交流的。目前这是生态的网页,可以看出现在第一个软件就是ColossaI,LightingAI全部用的ColossaI。我们知道目前第二大AI生态是HuggingFace。开源生态全球做的最好的就脸书,脸书OPT的模型也可以用ColossaI训练,这是跟全球AI生态的关系。
我们也跟一些厂商,比如HPE合作,因为它们在全球有很多最终为大模型买服务器的企业,比如车厂、药厂、石油公司,现在也内嵌了ColossaI的方案,这是它的产品官对ColossaI的点评,有很好的API,有显著的性能提升。
这是目前ColossaI的贡献者,也是遍布全球的。这是全球的ColossaI的用户,可以看出中国、美国、欧洲、东南亚都有很多的客户。
我就简单介绍一下干的事情。这里进入技术环节,主要是我们现在考虑假如训练一个千亿、万亿的大模型到底需要什么技术。这里简单探讨一下,大家有什么想法和看法可以随时交流。、
我们知道2020年GPT3刚出来的时候,最开始把训练方案公布出来的是英伟达,在英伟达PTC峰会上,黄总说了如何训练GPT3的,当时用了3072个GPU,用了三种模型,数据并行,流水线并行以及张量并行,出于通讯方面的考虑,张量并行到流水线并行需要做很多的考虑,需要涉及每一个GPU都要参与。英伟达的方案是首先在服务器内用张量并行,每个服务器有8个GPU,再把64个服务器分成一组做流水线并行,组之间用数据并行,这样是3072。现在我们明显看到一个趋势,就是刚才说的趋势,模型从ResNet50到GPT3大了一万倍,但是层数并没有增加,每层计算量变得更大的情况,张量并行可能发挥更大的作用。大家可以看一下脸书团队的一些方案,他们现在的一些方案其实直接把流水线并行删除了,他们发现当这个模型很宽的时候,张量并行的优化点还是很多的。当然我们也顺应潮流,也做了一些更高维度的张量并行,比如二维张量并行,2.5维张量并行。还有数据序列并行,大家看到新闻美国某些创业公司把输入长度扩展到100万个Token,肯定输入长度依旧是越长越好,我们回顾之前背景肯定是信息越多越好,但是序列非常长之后内存开销很大,所有词词两两之间都要算attention,所以我觉得数据序列并行也非常重要。
我简单介绍一下这些技术,首先回顾一下数据并行,最基本的训练AI大模型的方式。假如说batch能塞到GPU内存里面最好,这样服务器之间只需要梯度加过去就行了,这是最简单的方式。这种方式主要取决于我们能把通信操作优化得多好,假定能够优化好的话,下面就是如何把batch做大,因为每次循环都得进行一些梯度更新,我们如果能把batch扩大十倍,就线性减少它的更新次数,同时也会让每个GPU占用率、使用效率更高。
但是问题是我把batch 扩大无限大,更新次数无限小的时候,我们会是找一些局部自由点,这种情况下发现更难找出更好的局部自由点了,这里做一些数值优化的工作比较重要。
最近斯坦福的马腾宇老师也提了一个更高级的想法,这块未来的想法可能还有很多。不知道大家有没有听过美国有一家创业公司是做芯片的,理念是我把内存容量做到2T,A100的只有80G内存,但是它自己的宣传稿中,我没有验证,它说可以把内存做到2T,这种情况下有望把千亿参数直接塞到内存里。数据并行之前已经优化的很好了,进一步如何再把batch size 提升,把更新次数降低。
说完数据并行,再说一下Model Parallelism。我做神经网络训练像盖楼一样,我算完第一层才能算第二层,算完第二层才能算第三层。我们现在既然楼很宽,假定这个楼有1万平,我有十个工程队,每个工程队分了1000平,大家干完之后做一次全局的同步,然后全局通信就进入下一层。真的挺简单的。
但是它的通信开销还是非常大,英伟达Megatron方案还是做了精心的设计。未来有必要做一些二维张量并行,因为本身都是矩阵,像传统的二维矩阵层的核心思想,就是我把GPU或者服务器按行或者按列分成网格状,每个机器只用跟同列机器打交道,本来有一万个机器,理论上跟9999个机器打交道,但是二维的方式每次只需要跟99个机器打交道就可以了,可以大幅降低通信的代价。这是二维张量并行的核心思想。三维的也是分成10×10×10的网格状,或者分成100×100×100的立体状,每次只需要跟同维度的打交道就可以了。这是二维和三维的核心思想。2.5维是介于二维和三维之间的中间状态。
这里快速过一下通信复杂度,大家也没必要记得太认真,这种东西肯定是一些理论上的分析,具体还要实践验证。最后两列可以看出二维和三维的通信复杂度肯定是远低于一维的。
我重点介绍一下数据序列并行。这里首先跟大家展示一张图,横坐标是到底有多长,纵坐标是预测下一个词的精度,肯定越长预测的越准确。回顾的越多信息越多,预测的肯定越准确。这是一些实验的结果图。
我给大家看一张图,超过4K之后,它的内存开销在指数级的上升。现在有一个创始公司居然把sequence 做到了100万,它的核心思想就是把不同的Token块放到不同的GPU上,我有一百万个Token,可否十个GPU每个放10万个Token,这样每个计算单元的内存压力小很多。
但是它的问题是 attention 架构里 token两两之间都需要做信息交换的,比如说今天咱们屋子有100个人,每个人都拿了一包很大的零食,现在要干的事情就是让所有的人尝下手里的零食,所有人之间都需要交互一下。优化点就是能不能基于传统的Allerduce的方法,我们拉一个圈,右手边的同学尝试一下,然后左手边的同学尝一下,传99次就所有人都可以吃到所有人的零食了。
我再介绍一下内存优化方面的工作。既然训练大模型这么耗内存,现在很重要的问题是我们能否利用一下CPU内存。假如盖大楼需要很多材料,材料和原料都放到楼下工地,楼下工地放不下能不能放到隔壁工厂?隔壁工厂也放不下能否放到天津?但是如果我每拿一次都去隔壁工厂,肯定消耗更大,我盖一层楼都去天津拿一下,显然盖楼的时间还没有拿材料的时间长。我用CPU内存就是通信开销太大了,计算的速度肯定远快于CPU跟GPU之间的通信。这个其实就是优化的重点。
当然其实之前微软也做了一些工作,比如说ZeRO的工作,我用的时候做一次通信把所有的东西都汇总起来了。
ZeRO的做法是提前预先静态的把内存申请一下用来放参数,但是这种情况下很容易会造成一些内存的浪费。假定我们还有700G内存,刚好我需要750G,可能整个700G都会被浪费掉。能否利用Chunk分成很多块,只要有实际的空间给出一个实际的块,尽可能把越昂贵的内存每一块都利用起来。通过这样的方式,我们就能把内存的利用率提到最高,从而进一步降低内存的开销。
最后,我简单介绍一下Benchmark以及实验结果。左边是跟GPT相比。一个GPU、两个GPU、四个GPU,ColossaI能够训练更大的模型。右侧的是跟DeepSpeed相比,比的是速度,最多大概能获得三倍的加速。
这张图是不同解决方案的比较,左边从左到右是PyTorch、DeepSpeed,一个很低端的GPU情况下,最终ColossaI能够训练120亿参数的模型。右侧是一个速度的比较。
这是我们帮客户做的一些解决方案,比如在同样的条件情况下,可以进一步把时间从大概每次的每个计算单元时间大幅度降低10倍左右。
我就分享结束了,如果大家有问题的话,可以交流一下。