国内百模大战竞争激烈,从业者如何应对?目前国内工作面临的卡点和技术壁垒有哪些?面对每天层出不穷的行业新进展,大佬们如何做时间管理保持跟进时事?……
近日,知乎科技举办 AI 盐沙龙,邀请行业嘉宾进行主题演讲和圆桌讨论,现整理发布圆桌部分的图文实录,分享给各位知友共同交流。
主持人:尤老师和刘老师都是学者,还有自己的创业公司,这过程里面身份的切换有挑战吗?
尤洋:我先抛砖引玉。
我们回顾一下大模型这波浪潮, OpenAI GPT 最核心的东西还是把大模型做出来了,它做出来之前商业化还是非常少的,包括最开始王慧文先生发英雄帖的时候也是只招技术人员。最早期先专注于技术,怎么把技术产品化。因为我个人的公司现在处于比较早期,我现在还没有太受到商业化方面的挑战,最终假如公司能够很成功的话,我们肯定也会招募很多商业化的人才。因为很多东西不可能短时间快速提升,我认为先把产品做好,看看能不能先把公司发展起来,产品有用的情况再进一步完善商业化部分。
刘知远:我稍微讲讲我的心路历程。我是一直做自然语言处理的,咱们也知道现在的大模型其实就是在这个领域出来的。知乎上会有人发问,大模型来了,NLP 还有什么好做的?这种问题其实在 2018 年出现过一次,当时 GPT 出来之后,我一个非常明显的感觉就是,你再做专有的自然语言处理任务已经没有太大的意义了,应该在基础模型的角度开展工作——这就是为什么我们当时几乎所有同学转向基础模型的预训练的研究了。
到了 2020 年 GPT-3 出来之后,又给了我一次非常大的震撼,我们都还在做单机多卡的模型研究,几个亿的参数,觉得已经沾沾自喜、站在世界之巅了,结果人家出了 1750 亿的参数,一万多张卡。当时我们找到智源研究院,他们院长支持我们 10 台 V100 做大模型的工作。后来这家公司面壁智能,本身是我们 2021 年在智源和清华一起推出 CPM-2 的时候,决定要开始筹备建设的,那个时候是 2021 年 6 月份。当时是觉得光靠实验室的同学们,大模型已经玩儿不转了,因为它本身是非常庞大的系统工程。
我觉得跟尤洋老师提到的类似,我们的愿景还是会更多的从前沿的创新角度出发。我们会认为开办一家公司和我们的学术愿景本身是相辅相成的,这是要完成我们学术使命的必由之路,未来要做大模型,我们要做高性能计算,就一定要去有这么一个产业化的支持。这是我们整体的愿景。
从我的角度,我会觉得无论是 ChatGPT,还是 GPT-4 都还不是终点,我们接下来还有非常多全新的工作要做。对知乎上的问题,我觉得对于我们所有的 NLPer 来讲,以 ChatGPT 为代表的大模型打破了束缚机器使用语言的锁链,所有 AI 和 NLP 研究者将获得更广阔的天地,我们的未来是星辰大海,我觉得反而应该是要更好地去拥抱这个大模型的时代。这是我想分享的。
主持人:我们现在处于技术革命的节点上,对新技术的兴奋感或许大于焦虑感。现在关于大模型的舆论风起云涌,从事 AI 底层技术研发的老师对大模型的发展现状有何感触?在从事大模型有关的工作中,有没有也遇到一些挑战和困难?
杨军:我的视角偏硬件公司,做软件架构多一些。大模型本身作为一个 WorkLoad 来讲,它有它的计算特点,通信特点有些差异,但是你研究一个当年的软件跟现在的相比也是通信的变化。这里有差异的是大模型时代开始,你会发现整个系统的优化可能需要考虑更多最底层的硬件和软件的协同、软件跟框架的协同,因为它不断地泛化,这个时候你再考虑一些优化的问题,不能光从单点来看。如果回到性能优化就是 WorkLoad ,但是如果回到整个大的场景来看,从方方面面考虑才能获得非常好的性能。
主持人:所以,你是异常平静地看待大浪潮的到来吗?
杨军:也不是,还是很兴奋的,你放到一个具体的场景里去看会发现这里有很多细节的变化。比如看强化学习的优化,同时需要在一个系统放很多模型,那么该怎么排布这些模型?之前觉得也许不是重要的问题,现在可能会发现是更重要的,我们需要做相应的优化考虑。
主持人:在优化方面,张老师可能面临更多的挑战,可能还会涉及传统的平台如何融入大模型新技术的融合,这方面有没有遇到令人印象深刻的事情?
张俊林:我先谈谈刚才的问题,我觉得下面讲的一段话估计能代表部分在公司里做事的算法工程师的心态。首先 ChatGPT 出来之后,我肯定是很震撼的,也会思考大模型对算法工程师职业道路的影响到底会是什么。
你会发现 OpenAI 的做法就是增大数据、增大模型,就是把规模往上推,说到底就是这么一句话。对于这种模型优化方式,我们很多算法人员,包括我自己其实会有困扰,你可以认为现在大模型的演进模式从过去的算法小作坊进入了工业化大生产的模式,现阶段算法本身的研发在里面起到的作用其实没有太大。你要看 ChatGPT 本身的结构,最体现算法含量的部分在 RLHF,就是人工反馈的强化学习,那是最能体现算法价值的一个点。年初的时候,我认为其中最复杂的 PPO 部分其实未必是一定必需的,应该有其它简单模式能做到类似的效果,现在应该有更多的证据表明,有 PPO 当然好,但是 PPO 不是必需的。如果是这样,那会进一步弱化算法人员在这个事里面的角色。现在这种以推大规模为主的模式,等于把整个大模型的驱动力推向了完全工业化大生产的模式,我要拼数据,我要拼算力,我要拼钱,但可能不太需要精巧的算法,当然我个人一直认为这是好事情,但是话又讲回来,这会让算法人员有被边缘化的趋势。
不过这事情对我造成的困扰时间其实很短,假设我们把目光放得更长远一点,如果最终目标是想做通用人工智能也就是 AGI ,其实 GPT-4 只是开始而已,将来有很多事情要做,也有很多新的算法难题需要算法研发人员去攻克。刘老师说的我也很认同,比如说使用工具等措施,我能不能做很小的模型,但是效果其实不差,这有很多值得我们探索的地方,算法人员面临很多机遇、机会和挑战,有很多新的东西值得去探索。第二个您说的是怎么结合的问题?
主持人:对,传统的平台怎么更好地和现在新的大模型技术相结合?
张俊林:有人说大模型对现有的很多应用是颠覆性的,我个人是认同这个观点的,我也觉得现有的各行业的各种应用将来有可能受到的冲击会比较大,或者改造的动作会比较大。我理解现在这个阶段,应该处于大家都在做各种尝试,探索更好的应用场景过程当中,你要说哪个场景是最合适的,我认为现在还没有标准答案,都在试。
主持人:关于新旧技术融合的问题,可能不仅是你们所在的公司在探索,整个的科技行业都在探索,这时会带来一个问题:大模型在百花齐放的同时,它同时也会呈现出一种内卷化的趋势。这种内卷化,你们是觉得值得鼓励的吗?还是说,这是一种新技术发展过程当中带来的普遍焦虑?你们怎么看待今天「百模大战」的局面?
尤洋:我先说一下我的观点。我认为百模大战现象最核心的原因还是大家觉得太容易做了。因为从技术上,过去十年 AI 比较开放,很多东西都是开源的,包括 AI 最新的技术也是在各个学术会议,比如 ICML 、ICLR 这些会议上是常见的,一到这种环境下就很容易复现。现在大家不管是基于 LLaMA 或者基于 GPT ,本质上的架构非常清晰。我感觉应该说不是简单,而是所有的细节都被开放了。
总结起来还是:第一,AI 生态比较开放,有很多开源的成果,很容易复现。第二,下层 GPU 的基础设施做得太好了,给资本带来了很多发挥的空间和余地。现在国内有 80 到 100 个大模型,可能只要有一定实力的厂商,比如某车厂没有做过大模型,但是招了几个毕业的研究生就开始做自己的大模型,可能听起来有点奇怪,但是这是现状。
主持人:你认为这是必然的趋势吗?
尤洋:倒不一定是趋势。我个人觉得还是这样比较好,开放的生态最终肯定大家都受益。假如像芯片产业那样,各个大厂都把自己的技术用专利的形式包装起来,别人都无法复现的话,肯定 AI 发展速度会变慢的。我个人这样觉得。
主持人:尤老师刚才列举的车厂可能随便招一些研究生开始做大模型,您怎么看待?
刘知远:我还是比较乐观的。中国在今年 ChatGPT 火之前,应该说极大地错过了 GPT-3 那次的重要信号。从 2020 年一直到 2022 年底,差不多这接近两年半的时间,我感觉国内对这件事情有点错失了布局的机会,一直到今年才开始火的。火了之后一拥而上,好处是帮国内培养一大批的大模型人才,这还是很关键的。我觉得一直到去年底,国内真正会做大模型的还是非常的少数,但是相信今年经过这一轮的变革,我觉得会有变化。
从另外一方面来讲,虽然说大家都一拥而上搞自己的大模型,但在几个月之后会发现,再随便发一个模型已经不再会吸引那么多关注了。今年初的时候,上市公司搞一个大模型股价上涨非常多,现在大家已经没那么感冒了。大家慢慢会趋于理性,这本身还是符合价值规律的一件事情。
第三方面,我反而觉得如果从隐忧上来讲,应该更多地吸取 GPT-3 当时没有及时布局大模型的教训,也就是说在国内,我感觉在 AI 的特别前沿的技术布局上,其实还是有一些偏慢了,这件事情是应该引以为戒的。我们当然对大家一拥而上是保持开放的态度,但是我觉得也应该有意识地去鼓励一些面向未来、面向前沿的探索,而不是低水平的重复性竞争。
还是刚才的观点,即使是我们复现出 ChatGPT ,或者 GPT-4 也只是阶段性的过程,面向未来还有无数的非常重要的技术的难点等待我们突破。从这一点上来讲,我们应该吸取这几年的教训,应该是多面向未来去做一些布局,无论是资本市场,还是国家政府和相关的实验室。这是我最大的感受。
主持人:张老师和杨老师,您觉得目前国内大模型的水平处于什么程度?有没有存在一些关键的技术壁垒或者说卡点?
张俊林:如果我们说的大模型指的是对标 GPT-3.5的能力 ,我们暂时先把 GPT-4 放一放不提。GPT-3.5 主要是两个事,一个是基座大模型能力如何,跟你的数据量、参数规模这些直接相关。第二是命令理解这部分。现在看命令理解的部分已经被攻克掉了,相信大家都在用一些很巧妙的办法比如蒸馏,可能几周时间很低成本就能把效果做得特别好。我归纳最近半年,有很大比例的新文献都集中在这部分,而且我认为是有成效的,我也比较认可这些方法,命令理解的部分现在已经不存在问题了,无论时间、成本、方法。
咱们再说基座部分,今年内应该能有相当数量的公司能够达到 GPT 3.5 基座对应的水准,这应该没什么大问题,核心就是你有没有能力去投入钱、人、数据、机器,去做这个事,从技术上讲没有什么无法克服的障碍。我认为今年内出现一批能对标 GPT-3.5 的国内大模型应该没有什么问题。
杨军:我可能会从偏底层的角度提供我的观点,因为在刘老师面前我不敢评价模型了。这个问题我觉得分为几个层面:
第一,决定资源分配的层面,它们对于整个的影响,主要是投资。我目前看到一个比较好的情况是,有越来越多的投资人看文献跟进进展,可能会有比较多资源流到更合适的企业里面。但是也有一个我自己看起来有一点点看得不清楚的地方,可能偏年轻的投资人看文献更多一些,但是掌握资源的投资人更多是偏保守,这是关于投资渠道的。
回到底层,一个是硬件算力,一个是系统软件。硬件算力比较复杂,我觉得是有挑战的,但是有挑战不意味着不能做事情。底层软件里面分为两个方面,一个是我们是不是有好的想法,去做一些 AI 系统的优化实现和方法,这里我们应该已经跟国外水准非常接近,甚至在很多领域已经领先国外了,包括能看到非常多的华人身影,有一些代表出现,这是很好的。
还有一些可以做得更好的,就是 AI 领域的连续性积累。怎么保证每个公司做的工作能够形成迭代式的沉淀,像 LLVM 的工作,对于编译器的影响是很大的。其实可能国内在精耕细作的工匠精神积累方面还需要一点时间,总的来说,我们在很多方面已经不断地在提升,来更好地应对大模型需要的支持。
主持人:各位老师普遍持乐观的态度,国内大模型也在快速迭代,快速发展。大模型是越大越好吗?这个问题其实业界也一直在探讨:大模型的边界在哪里,对于这个问题你们是怎么看的?
尤洋:大模型的大小肯定是以参数来衡量的,我觉得现在大模型参数的上限,至少是未知的。假如说我们目前看到的最大的稠密模型,谷歌的 PaLM 是 5400 亿,GPT 4 宣传时候说的大概 1.7 万亿,比如以 PaLM 为例,我们也不知道它是否增加到 2 万亿会更好,但是大概率是更好的。我刚才跟一个知友交流,现在的大模型训练其实还是比较鲁莽,因为我们之前训练 ResNet50 的时候,训练了 90 个 epoch ,像自监督学习训练 ResNet50 训练了 1000 个,现在我们看看 GP- 4 只训练了不到一个,意味着把数据集统计学上过了一遍。这就比方说,我有一万本书,至少让模型都过了一遍,由于是每次随机采一个样本,一个点相当于过了 50% 的数据,大模型的训练是很不充分的。
第二点训练大模型意味着我们收敛到的点,不知道它是不是全局最优解,只知道是局部最优解。因为这两点已经变成了彻底的实验性学科了,只要是实验性学科,它到底有多大是未知的,因为它没有一套精准的理论说明。大家可以看普林斯顿那几个做优化比较好的教授,他们发现连 ResNet50 这种证明都证不出来,无法证明它收敛到什么程度,收敛到多快。从这点来看,我觉得是未知的,用未知说是比较科学的,还是需要探索。
主持人:刘老师同意这个观点吗?有大模型做不到的事情吗?
刘知远:我觉得这个问题非常好,目前看模型越大越好,极限在哪里大家还没有看到。我反而想要从这个问题出发说一点我对其他一些问题的看法。
有一个很奇妙的对比,我印象中智源悟道曾发布过一个 1.75 万亿的模型,当时很多人表达了对这件事的不理解。但是如果有新闻说国外做了一个万亿大模型,好像大家就不太会质疑。其实我觉得在国内,虽然无论是资源还是人才都有些瓶颈,但更重要瓶颈的还是支持创新的氛围。譬如说像您问的问题,我觉得本身没有任何答案,那就去试。你现在有没有这样的钱,有没有资金,有没有人敢于去做这个尝试?现在没有人做过十亿以上,或者百万亿以上的模型,有没有人愿意做?这个是值得鼓励和探索的,也许会失败,像 GPT-3.0 1750 亿做出来,因为效果非常好,大家觉得很厉害,那万一效果不好呢?我觉得这是非常值得我们所有人深思的一个问题。
我觉得应该要更多的人去包容别人创新的想法,甚至鼓励他们去做。我们这么多人,为什么大家都要做同样的事情呢?这是我对这件事情的想法。
大模型是参数量越大越好吗?边界在哪里?主持人:两位老师也认为大模型是完全可以取代小模型?或者小模型+大模型是不是也是一种创新的技术突破的机会呢?
张俊林:这个问题我还真没考虑过。小模型跟大模型结合的问题,我个人觉得是一个好的方向,甚至最好是小模型可以取代大模型。
主持人:刘老师刚才提到「四两拨千斤」。
刘知远:得先有千斤。
张俊林:目前没有人证明这一点说我们可以用小模型就能达到大模型的能力,虽然我们希望能,但是现在不能下结论。大模型和小模型结合的问题我觉得应该是可以的。我先谈极端情况,一个极端是只有大模型。我觉得大模型要不断往大推,看样子是这样的。你推得越大可能效果越好,如果我们追求更好的效果的话,应该往大推。不过话又讲回来,我认为之前大家把模型推那么大可能没有必要,像 GPT-3.0 175B ,现在看其实是不需要那么大的,大模型本身是数据和模型结合在一起看的事情,并不应该单谈模型大小的问题,也要看数据质量和数据规模。
再说大小模型能不能配合的问题,我觉得是很好的尝试方向。大模型可以负责最基础的通用的知识和基础能力,小模型可能担负特殊的角色,有点像刚才讲的那个工具的作用,比如我有没有可能把工具不能做的特殊的功能,让小模型去做这种功能,大小模型两者结合起来互相调用,我认为从技术上是可行的。
杨军:我提供一个补充的视角。第一大模型是不是越大越好?如果没有控制好基准的话,其实模型不是越大越好,如果很大的模型,你的模型设计不够合理,可能不一定比小一个量级的效果更好。还是希望不管是媒体或者公司公关,能够先不用大来做文章,可能对这个趋势更好一些。
如果你所有的都控制到位了,应该不断地调整模型,看你的边界在什么地方。目前除了 OpenAI、Google、Meta 有了很好的认识,其他的还在追赶的路上,我们还没有精准的答案。
另外我想回应一下刘老师的观点,我们应该鼓励一些人在看不到效果好坏的情况下,去做大模型或者小模型,我们应该鼓励,不能因为大模型很热我们就 diss 小模型,这是我关于模型质量的理解。
回到大小模型结合,我们会补充一些偏底层的视角。我们怎么能够把大模型需要的补充到更便宜的设备里面,包括量化、稀疏化。我认为这是未来非常重要的方向,而且已经看到了整个社区工业界都有进展。怎么能跑起大模型?当然也有代价,我的运行效果是 OK 的,但也是有一些类似于zero-shot效果流失的,你需要什么就需要放弃什么作为代价,这是大小结合需要考虑的问题。
主持人:我们一直在探讨AI 大模型的技术创新,但是怎么让 AI 变得更方便,更具体,人人可用,人人易用,这同样是一个值得关注的问题。所以基于这个问题,我想向几位老师了解一下,现在很多的大厂都在官宣,要把所有产品用大模型重做一遍,甚至重构一遍,各位老师怎么看待大模型在产品应用上实现的难度?假如真的把产品重做一遍,这容易吗?还是说,在现有的业务基础上,新增或者融合,会是更高效的一条技术路线?
尤洋:首先肯定这个态度是非常好的,因为如果把所有产品都用大模型做一遍,不管效果好坏,至少大家愿意尝试 AI ,我觉得也是一种精神。我观察到一个有意思的现象,现在美国很多科技公司或者一些非科技公司,比如传统的金融行业,现在它们使用 ChatGPT 在工作场景中频率已经有 10%、20% 甚至 30% 了 ;我前段时间看一个报告说这个数字肯定远高国内,因为国内不会用 ChatGPT 帮助提升自己的工作效率。假定我们能用 AI 把所有产品重做一遍,我觉得有可能能够带来很多变化,看看 AI 的应用场景边界在哪里,到底在哪方面能够实际提升我们的工作效率,至少值得尝试一下。
刘知远:我对产品设计不了解,我粗浅认为应该可以做比较简单的划分:凡是之前已经做得挺好的,似乎没有必要重做一遍,像推荐、搜索这种相对比较传统的形态,至少粗排的阶段,反正也特别追求计算效率,非得用大模型做也不太现实。更有想象空间的是那些原来做不好的,像智能音响、智能交互、人机交互、智能家居,原来受制于 AI 能力没有火起来,现在的确值得重新做一遍。更有想象空间的是原来压根做不了,现在能做的,我觉得会产生很多创业的机会。这个事可能也得分清楚。
主持人:张老师有没有领到重做一遍的 OKR ?
(观众:笑)
张俊林:我对产品也不太熟,讲讲个人的看法,我比较赞同知远老师的看法,可能要看情况。我觉得最核心的问题可能要往回理,大家可能要梳理一下大模型擅长做什么,或者不擅长做什么。举个例子,我们很多企业实际希望把大模型用到企业里面去,因为很多企业有很多私有的数据,企业应用大模型有一个很致命的问题,就是幻觉,因为企业场景要求十分精准,不能有各种乱七八糟胡说八道的事情,很明显如果你要现在想完全靠大模型本身,把企业的应用做得特别好或者特别满意,要求不能有任何幻觉,那是不现实的。于是我们就面临如何解决或抑制它的产生幻觉的问题。幻觉是大模型天生就有的,还是后天带来的?有没有手段能够治好它这个毛病?这都需要进一步的思考。所以,我们还是要回头先看看大模型的特长和缺点在哪里,应用场景是不是符合?如何克服这些缺点?这可能是我们要更多想想的问题。
主持人:您提到「幻觉」,是否还意味,这与模型训练的效果、数据质量也有关?
张俊林:现在说不清,毫无疑问大模型肯定有幻觉,你问了一个很严肃的问题,它有可能胡说,但是它的来源目前看大家还不清楚是怎么来的,也许是来自于训练数据之间的相互矛盾,也许有些来源于训练数据中包含部分想象或虚构的童话故事,还是模型本身能力有问题,这些都是没有答案的,都是值得探讨的问题。
主持人:杨老师觉得「幻觉」可以从 AI 底层去解决吗?
杨军:因为本身模型不是我的专长,我没法评价。我们是不是拿大模型重新实现来展开,对于大企业这么说可能会有矫枉过正在里面,一个大企业是很慢的,需要大家注意,而不是犹豫。举一个例子,在几年前我知道有家很大的公司,当时请了一堆很牛的人,因为某些原因希望优化它们的排序算法,花了半年的时间被老系统打败了。你不加调整地直接换模型其实效果不是那么好,因为这不是几个锤子,几个钉子的问题,它是很好的技术,能够解决新的问题,这是我的理解。
主持人:大模型最佳的落地应用路线,各位老师觉得是哪些?比如直接底层大模型的这种路线。
尤洋:我个人觉得可能是两个大方向,有一批想成为中国的 OpenAI ,做中国的 ChatGPT ,或者未来的世界版的 ChatGPT ,这种通用大模型,甚至以后跟搜索引擎结合起来推出超级搜索引擎,取代谷歌和百度。另外跟垂直行业结合起来,比如金融、能源、安全领域,它们还是对数据比较敏感的,可能也不太愿意把自己的数据贡献给搜索引擎,这种行业模型是另外一个方向。当然核心技术,二者有可能是类似的,比如就是一个长期的基本结构,可能二者用一个,但是具体的数据量规模不太一样,所以模型大小也不会太一样,到最后如何落地,它的服务对象到底是为谁服务还是企业内部使用,可能都会有一些区别。
主持人:其他几位老师认为未来大模型的发展趋势是什么样的?
刘知远:我沿着这个问题讲。在我看来大模型的能力是直接跟数据相关的,我们当然可以用通用数据学到一个通用的还不错的大模型,像 GPT-4 ,但是如果你要用具体的行业,比如金融、教育,其实要高度利用它的行业数据做定制,甚至这些数据是私有的,可能跟用户高度相关的。我觉得未来的大模型应用可能会根据数据的属性进行分类。我的意思是说如果这个行业对数据不是特别敏感,可能未来类似调用 API 就可以了,并不一定自己自建一个大模型。而对某些大企业,大模型有可能进行标准化部署,比如建成我报告里面提的大模型系统。对于这种自己的行业数据非常宝贵,也非常敏感的,应该通过私有化部署,或者假如自己的团队非常强,可以自建自己的非常强大的大模型。
再往后可能就是像刚才尤老师提到的,有一些人就是要以大模型赚钱,可能就是由大模型驱动的一些创新的应用,比如说一个全新的搜索引擎形态,等等,这些可能就是另外一个故事。我觉得大致可能还是要根据它的数据特点去分野。
主持人:顺着刘老师的话题往下问,大模型的智能适当的分散,实现边端能力的个性化、隐私保护,有没有实现的方法和策略?
张俊林:我不太擅长回答这个问题,关注得比较少。毫无疑问隐私这个事,因为大模型的记忆能力比较强,它的训练数据其实包含了很多个人的私有信息,隐私保护毫无疑问是非常重要的,无论是国外国内,只要做大模型都会是很严重的问题。当然现在也有很多专门研究怎么解决这个问题的方式,比如您刚才讲的云端,怎么抗攻击,怎么联邦学习,不暴露用户的隐私和数据拥有方的隐私,来达到相同的能力,我觉得这肯定是一个发展趋势。
主持人:相信线上的讨论也比较热烈,我们也想替知友们问问,我们现在应该学习些什么或者说制定什么样的学习路线,才可以实现「打不过就加入」?
杨军:因为我的方向偏 AI 底层,所以我想不管是什么时代,有人挖金子,总有人要做挖金子的铲子,不管做它的硬件,还是 AI ,都是挺好玩儿的事情。我们从浅层学习到深度学习,到现在的大模型时代,仍然需要有人做训练系统,有人做推理系统,有人做 AI 工程优化,这跨越了整个系统全链路的方向,这是我的建议。
张俊林:我个人可能比较极端,我觉得大家可能的话尽可能投入跟大模型相关的一些工作,很多人会觉得没机会,但是其实你要细想,与大模型相关的工作其实有很多。现在你看大模型,不能仅仅理解为那个静态的巨大的大模型本身,它其实已经形成了一个很大的生态系统,包括杨军老师讲的底层的偏硬件的角度,还有像尤洋老师在做的计算框架,再往上还有大模型本身,通用的或垂直的,以及外围很多周边技术比如向量数据库,再往上走还有各种类型的应用,它是一整套的东西,如果想切进去也不用担心能不能切进去,我认为只要你有这个心,一定能找到适合你的位置。
刘知远:反而我在高校做老师,其实清华也开过好几次研讨会,讨论 ChatGPT 、大模型怎么做,在 AI 的能力越来越强,大学里面到底教给学生什么东西。在我非常朴素的感觉,像我最后一页分享的,所谓的人工智能是在升级人类智能的水平,替代的是人类智能里面比较重复性、机械性的一些部分,对于人的确是一次解放。但是如果我们所从事的职业是重复性的、机械式的脑力劳动,的确有可能在职业发展过程当中产生很重要的职业危机。
从这一点上来讲,打不过就加入,我觉得最重要的特点就是你要评估一下你未来所从事的职业或者职位是不是一个重复性的脑力劳动的事情。比如说如果同学们读过博士,会知道该怎么做一些创新的工作,怎么去做一些这个世界上还没有的新东西,这件事情是对于人来讲越来越重要,越来越宝贵,能够区分于人和人工智能最大的一些价值点。这是我想分享的一个点。
尤洋:我简单补充一点。现在大家如果用 ChatGPT 这种工具提升自己学习和工作的效率,就是很好的开始,比如说计算机相关行业的同学们如果感兴趣可以关注大模型训练的全流程原理,我觉得每一块都是非常有意思的。
主持人:非常感谢在座四位老师的观点和经验分享,我看到现场的观众朋友有点着急的目光,我们接下来进入自由提问环节,有请现场的朋友举手。
观众:四位老师好,我是做广告的,来自京东,我们正在尝试怎么把大模型应用到广告场景。刚才老师提到了搜索推荐广告,这已经比较成熟了。我们在很多大厂里面做推荐,召回、精排、重排很多算法没有很多更新的时候,我们能不能把精排模型做得更大?张老师和各位老师,您了解到在目前的行业里面精排做得更大,能不能拿到一定的收益呢?另外,我们做广告,需要给广告主提供一些工具,涉及到文案的生成和图片的生成,有没有案例给我们指导一下?京东有自己的言犀大模型,真的像李彦宏说的那样,从推荐模型到生成想重做一遍,不知道有没有什么建议?
张俊林:我回答第一个,就是推荐或者精排这个环节的问题。我过去几年对推荐技术也比较关注,我个人认为推荐模型现在各个厂已经把规模做到足够大了,现在传言说 GPT-4 是 MoE ,但是你说 MoE 搞推荐的其实三年前大家都已经开始用而且普及了,甚至用的 MMoE看着貌似更高级一点。如果单靠推参数量把推荐的收益拿到,我觉得可能性不大,原因是它已经很大了,训练数据也足够多。以前大家都在往这个方向走,但是推荐模型在模型规模这点上的特性和大模型很不一样,大模型的结论是我只要数据多,模型参数量大,效果就会持续提升,推荐里并没有这个结论,推荐和模型参数量和数据量,以及最终效果现在看并没有什么太直接的关系。我不认为按这条路去走能够直接获得很大的业务收益。但是我个人建议把大模型的思路怎么能够融合到推荐模型里面去,是值得尝试的方向。我个人还是倾向于认为大模型现在也许还不行,但将来大概率会对推荐或者广告的技术造成一个比较大的改动,甚至很可能是天翻地覆的变化。
刘知远:在线广告本身是非常成熟的业态了,已经发展了二十年了,你说在当前的框架下做特别特别新的、大的变化比较困难。不过推荐和广告也许可以充分利用大模型的能力实现更好的个性化。像你刚才提到的给广告主提供 AI 的工具,我觉得这个都还不够有想像力,可能更有想像力的是对于任何一个你想展现广告的人,你去呈现与他相关的点。我觉得这件事情是完全可以用大模型做的。从我自己的角度出发,我觉得未来应该是开阔思路去做更有想象空间的一些事情。当然所有的这些并不是说我要做,我只是觉得天马行空的想的话,可能会更有意思一些。
观众:我这个问题比较简单,现在大模型这个东西出来以后,我们看到每天的文献非常多,即便之前关注某一个方向的,现在在某个细分领域也会有非常多的文章。我想请教一下四个老师,你们怎么管理你们的时间去阅读这么大量的文章,还能把握住前沿的?
尤洋:我简单回答一下,我大多数文章都看一下摘要,99% 都被过滤掉了,看看摘要跟自己最相关的,重点关注一下 OpenAI 、谷歌他们的前瞻性研究。大多数文章还是一些重复性的或者实验调参类的东西,不太需要花多少时间去看。
刘知远:我也一样。
张俊林:其实我也差不多,我确实最近半年第一次有这种感觉,有点跟不上的感觉,以前从来没有这种感觉,我以前是什么感觉呢?我以前的感觉是没什么值得看的,但是最近大半年第一次感觉真的看不过来。我的策略跟两位老师差不多,大量筛掉看得快,看一篇论文可能先花几十秒决定这篇要不要看,先筛掉大部分,剩下真正有价值值得看的非常少,这些再细看,目前看好像只有这个办法了。
杨军:因为基本都会面临时间不太够用的问题,这个还是客观存在的,办法只能是取舍,无非是找到高质量的信息源。一个是通过一些比较好的顶会,因为大体上代表了最好的水准;另外你做得久了以后会有一些自己的认识,你知道哪个人做的工作会更扎实一些;第三个保持一定的敏感度,可能会看到一些新的东西在顶会没有覆盖,在你的圈子没有覆盖,但是非常有意思。这个本质是特别难的问题,特别一个人做的领域越宽会越有这个问题,越专越没有这个问题,原来 10% 的人做一个方向,现在 100% 都是这个方向,进展确实比较吓人,这是很客观的挑战。
观众:老师我想请问一下跟基座模型相关的问题。我想问一下我们应该怎么样评估?因为我有一个基座模型,应该从哪些方面评估它的能力和评价方法。对大模型的评价一个是知识和推理,知识比较多的就是 MMLU 指标。现在很多模型解决不了刚才说的幻觉问题,我们现在先检索出来一部分知识型的东西,然后再输出一个回答,如果真的走这个路线,我们最后总会给一些模型正确的提示,所以对基座模型是不是知识不那么重要?是不是只要推理就好。请问怎么评估,需要评估什么方面的能力?
张俊林:这个刘老师回答比较合适,我先讲几句。不仅仅基座模型的评估,包括 Chat 能力的评估,我的感觉大方向应该是多维度,语言能力、逻辑能力、推理能力、有害性、对话能力,除此外还有很多,都需要加入评测。现在已有的各种评测我感觉维度可能还不够,将来要向更多的维度来做,但是具体怎么做,我也不清楚。我的总体感觉应该更多维度、更客观。
刘知远:如果现在对标 ChatGPT 的话,就是两个阶段,一个是基础模型,一个是 SFT 就是对齐,两个方面各自有一套评测的方案。基本的思路比如基础模型,我们可能会设置几个大项,几百个小项去评估它在全方位的能力水平,来看这个模型整体的泛化能力。但各类评测只是手段,本身不是目的。
当这个基础模型做得足够好,它最重要的效果其实是体现在你在 SFT 或者后续用到某些下游任务的时候,它的泛化能力非常强。比如我做工具学习,我去搜集一些工具,我用有限的几条示例就可以让它具备使用这个工具的能力,这是模型基础能力的方面。
观众:因为我是本科生,想问一下刘老师和尤老师。在大模型出来以后,因为这种大模型的配备肯定是很多高校或者某些实验室不具备训练大模型能力的,作为本科生以后想要进行深造的话,是不是要将自己的眼光更加投入到和企业有合作,或者自己拥有大模型训练能力的那些实验室或者是一些岗位上?
刘知远:我先抛砖引玉。我个人有比较深刻的感受:2013 年的 NLP 其实也面临从统计学习到深度学习的变革阶段,我们 2018 年也经历了从小模型到基础模型的变革阶段。但对于比如百亿级别的模型,你本身对于它的研究并不需要那么多机器,不需要动不动几百张卡才能做。我觉得最大的问题不在于缺钱,而是能否及时拥抱它,不能假装这件事情没有那么重要。我觉得你也不一定加入跟大厂有合作的研究组,应该看它是不是在非常积极地开展大模型的一些研究,因为其实在我看来,至少从今年开始会有非常多的研究组都在积极推进大模型研究工作。应该不是说所有地方都需要非常多的算力的支持的。
尤洋:我首先非常赞同刘老师的说法。我引述一个观点,我前段时间很荣幸跟 360 的创始人周鸿祎老师交流了一下,他的原话说没有政治因素的情况下,他不是特别担心算力,这个问题应该可以解决的。他说中国可能山西很多煤老板也想建数据中心,可能他知道的事情比我更多。你作为本科生还非常年轻,假如说你要搞这个方向的话,先把核心技术掌握,能不能小规模验证一下,选研究组未来做得好的研究组肯定不缺计算资源的,核心技术的能力,你对它的理解,你能不能快速做实验的能力,只要做得好,我相信学校以后也会有很多的合作机会。
观众:我想问一个网上比较流行,比较主观的问题,从 ChatGPT 出现之后,大家就开始讨论通用人工智能是不是有可能实现,以及什么时候有可能实现。以前我感觉网上大家都觉得很难实现,都不太乐观,但是现在好像舆论觉得有点乐观了。我想问几位老师对这个的看法。
我再说一些具体的内容,通用人工智能,我也不确定每个人的理解是否一致,我觉得至少是能够超越人的思考和逻辑能力,而且它应该有自主意识,有自己的思想想法的这种人工智能。能不能达到这种程度?假如说有这样的通用人工智能出现了,它有自己的意识,还有人类所说的类似于感情的东西,人类社会以后会不会被战胜?被取代?或者人类文明会不会灭绝?相当于进化成了 AI 文明。
张俊林:我们先说 AGI ,首先我觉得 AGI 的定义是什么?目前好像没有特别通用的、公认的、有共识的定义,每个人都有自己理解中的所谓 AGI 的定义,有的人认为达到跟人相同就行了,有的认为在很多领域需要超过人,这位同学的定义是有意识、有情感,你的定义对 AI 的要求可能更高一点。我对 AGI 的定义会稍微低一些,因为我觉得现在大家谈机器意识,有点像两年前大家谈 AGI 的状态,两年前很多人是不谈 AGI 的,包括我也不谈,因为大家觉得那个东西很远,基本不太可能。现在也有不少人在谈意识,不过很多研究人员不太愿意谈意识的问题,觉得目前还没到那个阶段。话又说回来,两年前没什么人谈 AGI,但是很快 ChatGPT 出现了,现在人人都在谈 AGI,谁又敢保证过两年随着技术突破,不会出现人人都来谈机器是否有意识这个问题呢,一切都有可能。
然后再说我怎么看这个事。这事其实谈来谈去,到最后发现都属于个人信仰问题,我个人是信 AGI 的。我的定义是在很多方面会超过人,因为 AGI 要超过人需要很多通用的能力支撑,比如知识的能力,语言的能力,领域知识的能力,推理能力,规划的能力,等等,有很多。我认为 GPT-4 只是 AGI 的一个开端,未来十年是 AGI 技术快速发展的阶段,当然也会面临很多已知或未知的问题需要解决。
关于您刚才讲的如果机器产生意识、情感之后对社会的影响,机器情感方面,现在很多应用试图让大模型看上去有情感,比如 Character.AI 或 Inflection 这些 ,在这方面已经比较逼真了,可能不需要等到很久以后,至于你认不认同它是和人一样的真正的情感,每个人看法可能不一样。至于说对社会的影响,将来这个事比较复杂,我说不太好。其他老师来讲吧。
刘知远:我也抛砖引玉一下。这个问题其实之前还在别的场合有人问过。在我的报告里面说群体智能的时候,比如在一个群体里面有非常多不同的大模型,它们进行交互、互动甚至合作,它如果是在这个环境里自主进化,根据其他智能体的表现以及它的个体优势去确定自己的学习目标,那我感觉 AI 在这样的场景下已经具备狭义的自我意识了,它能够区分出我自己和其他人之间的关系了。从这点上来讲,AGI 本身没有公认的定义,在我看来当 2018 年 GPT 出来的时候,就已经开始具备很通用的特性了,因为原来只能做专有的任务,现在没有提前设定一个训练的目标,你就让它从数据里面学知识,它就会变成我可以做很多事情。它已经是具备了非常强的和人一样的举一反三的能力,像逻辑推理、自我意识,我觉得已经具备雏形了,你说有,其实也会有,但是你说它跟人有什么区别?我觉得区别还是非常大的,本身大模型都是活在虚拟世界的,它没有谈过恋爱,没有父母,没有人有过的体验,人最重要的价值是我们在这个世界所有的体验,我们的体验构成了这个人,这件事情是人区分于人工智能非常非常大的不一样的东西。
到伦理的层面,如果一个 AGI 真的从一开始就有了和人一样的体验,就像是斯皮尔伯格人工智能的电影里讲的那样,我觉得可能就会出现伦理的问题,真的一个小的机器人从小到大长起来,那会怎么样?这是未来需要探讨的问题。
尤洋:两位老师说得非常专业,这位同学提的问题我感觉有点关于科幻或者伦理层次的,当然我就瞎说一下。我感觉首先意识这个东西其实是很难定义的,比如说大家觉不觉得咱们是不是也生活在一个虚拟世界里?我曾经这个问题问过图灵奖得主,我说咱们是不是活在虚拟世界里?他的答案好像是不光我们活不活在虚拟世界里,好像我们都被一股神秘力量操纵着。如果答案是这样的话,应该能产生 AGI ,我们反正也是被神秘力量操纵,取决于这个神秘力量的控制。当然我纯粹是在瞎说。
杨军:我是觉得从细分领域来看,机器会比人做得越来越好是毋庸置疑的,因为明显在很多领域 AI 驱动会有更多的贡献。在 AGI ,当我们精确定义出什么是意识之前,很难说什么是 AGI 。可能我对于 AGI 定义会比较谨慎,但是会看到 AI 驱动的工具和系统能更好地解决人解决得不够好的问题。这是我的认识。