2024 年 1 月 6 日,知乎科技举办「破晓 · 知乎 AI 先行者沙龙」,此为下半场圆桌「AI 落地进行时,让创新真正触手可及」实录文字。
嘉宾:
(主持人)骆轶航 硅星人/品玩 CEO,硅基立场主理人
董应赛 兔展智能合伙人,战略与投融资负责人
李乐 网易伏羲游戏 AI 产品负责人
汪大炜 WPS AI 运营负责人
吴海波 WeShop 总经理,知乎机器学习优秀答主
骆轶航:感谢大家,刚才听了行远和博杰两位老师讲得非常好玩,行远其实每个东西做得看上去都跟大语言模型没有关系,其实这几年脉络是下来的,你无聊问答的那个东西做早了,你晚四年到五年做那可能就是完全不同的一个场景,其实我觉得特别有意思,他坚持一个路径能做一些非常有意思的事。
博杰老师特别有意思,昨天我们几个朋友在一起讨论过这个问题,博杰老师把AI分成了有用和有趣两类,我们问你为什么不把智能、可感知、可推理甚至做一些最重要的生成当作一个划分呢?他说这是一个基础、一个标准没有这个我们谈什么?我们是在这个基础之上才去谈有趣和有用这两类。
我还是做一个简单的调研,现在在场的同学们有多少人以为自己用过AI Agents?有多少人用过有用的Agent?说白了帮你法律顾问、财务顾问、文档顾问?有多少人用过有趣的Agent,陪聊之类的,我特别担心大家不用有趣的Agent。
我进门的时候做那个测试,你向左还是向右,向左是愿意接受AI的陪伴,向右是不愿意,我义无反顾地选择了向左,作为一个i人,我觉得不是一个E人,我觉得如果可以不跟人沟通,用AI陪伴我觉得也还蛮好的。其实我觉得AI陪伴有用的维度我可能有一个观点跟博杰老师不太一样,跟这个阶段不太一样。但是博杰老师是在做事,我是在扯淡,这是差别。
如果我们真的相信成本未来能够降下来的话,有趣一端能够创造更大的价值,因为这个世界大部分是有用的,他们也不会做很多的事情,这是一个很有意思的事,我们今天就落地去聊一聊AI的应用、AI的应用能够产生,我们怎么能够尽快地去落地,我们先上来给每个人拍一个砖,问每个人一个问题。
过去也一年一些大佬拼命地去跟大家去讲,我们不要再去开发那么多模型了,“百模大战”东西太多了,赶紧开发应用吧。但过去的一年事实上至少在国内并没有出现真正的所谓的native AI APP的大繁荣,一部分人还在卷模型,普通人对AI应用很多时候可能无感,可能少部分的AI应用,最近这一两个月可能会有爬坡。我相信现在有的人可能注意到豆包现在投放量蛮大,有人人还用到了豆包、还用到了星野,海外用户可能大家都用Character AI、包括用派、用AI等等,但是其实整个应用在国内没有得到一个大的繁荣,很多平台也都推出了自己的工具包,希望开发者去开发应用,好像也没有那么多,原因是什么?是模型不行?还是什么原因?大家的观察,我相信各位都在做,有基于国内的基础模型去做的,也有基于海外的模型去做的,大家能不能直言不讳地讲讲这个原因。
董应赛:我想先抛砖引玉来说一下,先抛开兔展智能这个公司,我想自己先来聊一聊,通常尤其是原来经过这几轮技术的更迭,大家可能会通常有一个认识,觉得可能在中国移动互联网,可能会更繁荣一点,就是做应用这个事在中国更有热情,大家更愿意去做,而且用户基础也在这里,觉得中国通常都会对做这件事情,或者说回到这个问题上开发AI APP的热情以为会比美国更多一点,我觉得这一次通用人工智能最重要的还是基础的技术是不是做得很扎实,这个应用的效果才能做得好。
我自己的体会是因为我之前在美国工作过几年,我原来在Meta(当时还叫Facebook)工作过几年,我一直跟我美国的朋友有交流,其实是会发现国外它有一个跟中国最大的一个不同就是大家的人才密度其实还是更高、更集中一点。比如说真的是OpenAI、Anthropic、Google等三家人才密度是非常高的,在资源、资金、算力,人才投入在相对集中的公司里面,做出来的模型确实是很好的。比如说大家都在说是不是做了接近于GPT4的能力了,刚才前一场沙龙的交流过程中听到几位专家的说法其实也比较有自信会觉得可能差距没有那么大,但是我们自己的体验在应用端,要基于这些底层的模型来做一些开发的时候,还是会觉得是有差距,是要去承认的。而且在国内事实的情况是比较分散。
骆轶航:模型太多了是吧?
董应赛:模型太多的,人才不够集中,僧多粥少,哪怕在国外、在美国做这些AI研究的公司中华人占比不低,国内大家如果更集中一点这个事情是能做得比现在更好的,大厂也想做,也涌现了很多创业公司,资金也会比较分散,可能后面我们再聊一些投资都有问题。
回到根本的问题上,可能还是底层的模型,至少我们现在感觉还是有一些差距的。所以在这次AI这个浪潮里面跟之前的不同,比如说移动互联网里面,无论是抖音还是做社交平台,更依赖于底层的技术是不是成熟才能把一个应用给做好,我觉得这个是我想来分享的。
李乐:我的想法可能会相反,因为我是一个做产品的人,对我来说技术永远没有做到最好的时候,但是我们却可以在目前的技术条件下做出很好的产品。
我举个例子,当然这个是游戏里面的例子,我昨晚也说过,2018年的时候,我就把一个seq2seq模型放到游戏里面去,那个能力大家能感知到的,可能连个小学生的作文都写不清楚,我们很好地选择了游戏里面的“养育系统”这样一个场景切入,把对话AI嫁接到玩家虚拟养育的“小孩”上面去,即使在这样的2018年年底,那样一个技术水平下都有非常多的玩家跟他去进行聊天。所以从我的角度来说,我觉得对做产品的人来说,更高的一个挑战,就是我们要在现有的技术情况下,根据我们业务的场景去想我们应该去做什么样的一个应用,要有更多的思考和主观能动性在里面,这个应用的市场才能做得更好一点,所以这是我的一个看法。
另外一个,我们看到从现在这个时间点来看,大家已经比去年上半年的时候信心足了很多了,而且大模型还在快速地研发的中,各种性能也在不停地提升。但这里面会涉及到很多的问题,我觉得国内还是会做得慢一些,特别是很多高质量的开源的模型拿出来给市场的速度也慢一些。
我了解到很多的游戏公司也看到了市场上面一些好的例子以后,他们也有所触动,也在做相关尝试,可能在今年年中左右会有更多更好的应用出来,它可能是一个时间窗口的问题。
当然,我觉得还有一个问题就是目前来看AI还是很贵的,就是你的研发很贵,你的线上推理很贵,特别是在我们游戏的场景。我们的QPS是非常大的,游戏方承受的压力也很大,但是游戏要做差异化,他们真的就是咬着牙跟我们一起做创新,我们也希望这一块算力的成本,不论是我们训练的成本还是我们在线推理的成本,都能够尽快去降低。
我主要表达这几个意思。
骆轶航:我特希望我们的嘉宾在台上这么能够打起来,提供截然不同的看法,模型确实还是有问题,人才我承认,如果全球有一百人能做的,人家三家加起来占80个你确实很难受,即便这样的情况下模型还是有进步的空间,做产品的人怎么能够更快地具备AI的思维,我们那会儿老提互联网思维、移动互联网,但是做产品要有AI的思维,用好自然语言,打开他的想象力去做一些事,昨天李乐老师秀了一个demo我就非常开心。
接下来让汪大炜聊一聊,你们可以不讲你们怎么进入的,你们可以讲一点感受。
汪大炜:我讲一下从去年到今年一共发生了什么事情,这个可以去解答为什么,某一部分可以解答中国为什么做应用的人比较少,我们很早就做AI了,我们2017年就开始做AI相关的事情,但那时候CV、语音这种场景的,还有翻译校对,去年12月我们就关注到GPT的事情,关注到这个事情到底能不能做?真正启动大概是2023年2月份,当时整个公司开了一个会,核心的骨干都在一起说这个事情,我们判断这个事情可能会颠覆未来办公的方式,大家一定要投入到这个里面,当时我们内部两千多号研发,所有人如果你今天不去聊天AI的事情,可能你就会逐步逐步被淘汰那种感觉就会很明显。
在那个时候我们就开始找包括国内的、海外的模型的服务商,因为其实我们其实本质上不太做大模型,我们更多的还是用户场景里面找到用户的场景,去给用户提供这样的服务,所以我们找这样的合作方说哪些服务是合作方可以给我们一起共创、一起支持。海外的包括谷歌的、OpenAI我们也找了,国内的大家也看过包括 Mini Max这些、百度我们都有相关的一些合作,然后我们就开始做两件事情,第一件事情是看用户的场景里面有哪些是可以AI化去改造的,因为我们觉得AI化改造之后是能给用户带来很强的或者很大的效率上的提升,那我就去找一些事情,包括当时我们还去找了一些翻译的专门做出版社的翻译的老师,包括去做一些用语言的事情,找哪些产品可以做到。然后我们就发现了5月份发布会我们说了几个方向,比如说AIGC的方向、Copilot的方向和那个 insight方向,我们在做这件事情的时候,跟这些模型就开始说我们接进来,接进来我们调,看怎么样可以接到这个场景里去,那个时候整个行业里面的应用都是像对话式的交互方式的,我右侧一个对话面板跟它说一个我的需求,它帮我做完,基本上是这样子,我们朝着这个方向去努力,模型方我的需求是这样的,办公场景你给我做一些什么样的适配,生成的大纲你给我做格式的标签,大模型里面没有语料和训练,要把这些训练项目加进去一起去训练,让它带格式的属性标签出来,方便我后面做数据的操作,那个过程中5月份我们开了一个发布会告诉大家有这个事情可以做内测的时候,当时我们的感觉是模型叫勉勉强强,勉勉强强我可以用,可以放进来,这个完整的链路看上去可以完完整整地去使用,大概是这种感受。
我们去内测过程中就发现了一些问题,什么问题呢?用户在真正的办公使用场景里面它的任务是一个复杂的任务,不是一个简单的单一任务,当我以一个指令的方式,以一两句话,或者几句话去让他做这件事情的时候,他没有办法把这件事情一步一步猜出来,而且这个上面每一个人的想法、每个人需要改的地方都不一样,我们上了一个月的内测,我们今天的产品在今天的WPS里面是有问题的,我们后续不断地去做修改。大家可以看到最早一些用户我右侧浏览这种方式很舒服,实际使用过程中我生成一个PPT难道里面的大纲内容不改呢?肯定要改,AI生成的内容跟你想要的内容是不是符合的,没有办法一步到位,你一定会去改这个东西、一定会去调整,一定会去加进自己的东西,一定会往后走,我们把AI整体的能力打散,放到用户功能流程里面每一个部分加持它,这样的情况下你会感觉变得聪明,整个过程中模型也会不断地迭代,真正到年底我们真正发公测的时候,这个模型是超过我们想象中的进步的。虽然跟OpenAI还是有一定的差距,跟3.5还是有一定的差距,但是你觉得我可以用这个,我们用户用他使用的数据告诉我,他已经真正地在用这件事情,有一部分已经用到了他的整个生产环节里面去,或者工作环节里面去,这个是我们看到觉得未来一个比较好的方向,在未来可能1年多的时间里面我们认为还是这样的方向在整个产品或应用层面的一个表现。
回到这个话题里面来说,我觉得今天的国内的基础模型不是不能用,也不是说很烂、很糟糕,其实他们已经在有些场景下、有些应用的方向上有个很好的基础在上面,只是我们真正地到了用户的使用过程当中,我们真的需要做很多的事情,让用户的需求跟我模型的匹配能做起来。同时我们也看到用户也在学习,这是一个很关键的因素,我们6月份之前,我们看到用户其实在整个使用过程当中问问题,跟现在问问题的质量真的会有差别。所以我觉得这两个因素会慢慢逐步逐步地去改变大家去做AI的应用的部分的能力。
骆轶航:大炜你刚才讲这些东西都可以写个文章了,上半场我们聊TPF,TPF怎么去实现,俊旸讲的吧,铁震和俊旸两个人讲的,TPF这个事是试错试出来的,这个就是典型的TPF的过程,没有人告诉你答案,这个就是典型的TPF的过程,这个TPF的过程不仅是产品团队自己的P怎么去适应这个不可知的T,其实用户也参与进来了,我觉得这个过程实际上是一个特别特别有意思的过程,尽管这个东西跟一开始你们想的不一样,这个探索还是有价值的,我也知道你们4月份的时候,我就跟庆元总去聊过,当时的想法很美妙、很乐观,一年扑腾下来很多东西什么是能实现的,什么是不能实现的,大家有更清晰的认知,他这个特别好,但是肯定要花时间,海波讲讲,你们这个很有意思,试衣模特嘛。
吴海波:我们可能是今年在短时间内AI应用中商业化走得比较顺的。
骆轶航:杭州电商多。
吴海波:我觉得这个问题可以拆成两个问题相对讨论。第一个问题是native的AI APP是什么东西?
骆轶航:有这个东西吗?这个事存在吗?现在每年没有共识的概念。
吴海波:刚才这个问题的讨论是说这个APP的生态没有起来,这一拨跟上一拨有个巨大的区别,比如说以WeShop举例,我做一个电商行业的商拍,电商行业的商拍就是商家都要上架到线上,但需要一个商品图,需要AI来了之后可以做一个更有效率的事情,所有人都会问一个问题,淘宝做了怎么办?抖音做了怎么办?拼多多做了怎么办?那么你在中国这个环境下避免不了地要去讨论这个问题,你做native AI APP的生态的繁荣是不可能几个大厂在那里搞几个APP出来,一定是靠千千万万的开发者冲进来,这个问题不只是有中国存在,我记得11月份的OpenAI开发布会,Twitter上有一个大V发了一篇推:“OpenAI给我发了500美金的优惠券拿走了我500万美金市值的公司。”我觉得中国我们以前的环境中大厂对我们的copy是另一个维度的东西,今天有一个维度的东西我特别喜欢,我们刚才讨论的是基础模型,foundation model,不是大模型,比如说我们公司用得比较多的是SD,SD不算大模型,单机就可以跑起来,它确实是foundation model,他是一个有general能力的model,它在不停地吃掉一些应用层面的东西,因为它天然就能做应用,所以这个时候native APP没有火起来,我觉得有很多开发者他是有顾虑的,他觉得自己一轮下来一个创新的点子有可能再过半年、一年,东西没有了,场景不存在了,给另一个公司直接就吃掉了,所以这个问题不止国内,全球都有这个问题。
骆轶航:叫this model is eating native APP。
吴海波:今天如果要讨论做应用,绕不开什么是native APP,这个东西我觉得没有共识性答案,但“什么不是native APP”我有一些想法。待会儿其他嘉宾感兴趣,我们可以针对这个问题多讨论一下。
关于中国的基础模型,我觉得现在所有人都能理解到,整个基础模型在国家层面的竞争中都是很高的战略级别,这么多大厂他们有资源,相关有资源的人肯定要投入到这个事情上拿到一张票,所以现在国内最好的技术、最好的资源都在做这件事情。从年初到现在去看他们的测试,我们也按我们自己的场景去测过,它持续进步是很快的,只是对应用行业来讲,这个东西一定会成为应用行业的β,整个行业的β,就像移动互联网,整个移动互联网的β不停变好的时候所有人受益。我做应用的要思考的点是我是不是α,如果我不是α,那我就完蛋了,所以我们核心是想什么是α、什么是β。我想说的点跟前面两位嘉宾是类似的,你要动手,你动了手你才知道foundation model的边界在哪里,你才知道你的客户是怎么给你反馈的,你坐在这里思考非常哲学的问题,因为这些东西我们做应用很多做产品经理出身的人非常喜欢在哲学层面做很多这样的探讨、逻辑对应,可以讨论得非常形而上,但是落不了地的时候你没有感觉,一定要把自己的手弄脏才会有感觉、才会进来,我觉得这是一个非常关键的点。
所以我比较认同一定要实践出真知。
骆轶航:总结一下四位,应赛和海波客观地强调了现实、现状其实对应用造成的一些挑战,我觉得两位讲的第一个观点某种程度上我也是同意的,基础模型,基础模型的话,比如说它是GPT4,你是另外一个类似的东西,你是另外一套基础模型,其实如果你们之间有差异是会影响,这个东西其实某种意义上延缓或者阻遏了我们中国的这些产品经理的产品感和产品能力,某种程度上被这个东西所影响,其实现在应用更容易被吃掉,更容易被base model的某一部分能力吃掉,当然移动互联网早期也有这样的事情,但是我们发现这个东西更容易被吃掉,这是一个现实。
但是各位谈到另外一个话题也很重要,就是动手,第一个就是基础模型有差距,但它其实赶的速度蛮快,这个我不得不承认,过去一年,我们就不说小的开源模型了,大的模型我们说陪伴模型,我天天玩陪伴,它的进步我还是非常有感知的,文心一言的进步你是肉眼可见几个月一次进步的,智普跟百川同一个道理。
另外一个product market这个东西是靠动手试出来的,它不是靠大家想出来的,不动手就能有这个东西的,我觉得不是。
接下来就从动手的角度,各个人都谈一点事,还是应赛先讲,其实兔展还是很有意思的,兔展做的事是完全让人把手动起来的事,就是说白了AIGC的一个创作辅助工具,我可以这么去理解它?你怎么用它拖拽一个视频的动作、一个方向,怎么去做,相当于它是一个辅助工具。其实我也想理解你们怎么去理解我们做的这个东西的长期的价值?因为我觉得这里面还有一个不确定性,比方说百度Robin会去讲说Prompt engineer 是未来最好的职业,因为写Prompt的能力就是产品经理的能力。但很多人就会认为,如果真正的AGI,或者到GPT5的时候,可能Prompt就不存在了。Sam Altman 可能就会认为,未来Prompt可能就是一个过渡形态,其实这个也是我们目前包括做很多应用时候面临的一个问题,就是我们做的东西到底是不是一个过渡的东西?因为很多人会认为自然语言交互未来如果真的能够解决AIGC人类创作的大部分的东西的话,那这种辅助工具还存在不存在?或者说我们认为我们做的是一个工具还是一个应用?还是说我们做的一个什么东西,我们怎么去定义我们做的这个东西对于整个AI开发者的价值?从短期内怎么定义?长期内怎么定义?
董应赛:回应一下刚才那一轮的交流,第二轮的交流跟第一轮我们都是应用从业者,更接近于解决各种各样的用户,无论是C端用户还是B端用户的问题,刚才不是特别悲观地表达国内和国外的对比,大家有没有注意到,其实这个很多注意力还是语言的模态上,我们跟WeShop是今天唯二的两家更聚焦在视觉上面的,我们可能体验到的更多各是国外有stable diffusion这样的开源的模型,而且哪怕stable diffusion我们自己在用的过程中很明显地感觉到边界感很强,跟语言模型相比,有更多的问题是它现在解决不了的,可能更多还停留在娱乐的层面上,你做一个画展画一些图大家觉得很新奇,所以说我们才会摸到更多的边界,发现特别多现在这些视觉的大模型它解决不了的一些问题,但我们觉得更重要的是我们肯定这种企业,或者这样的团队都在用各种各样自己的办法去解决这个问题,也不能单单指望着模型自己,我们也在做很多贡献这里边的一些底层的技术去解决实际的问题。所以说回到刚才骆老师这个问题上来说。
因为我们不是一个特别TO C的公司,兔展不是一个新成立的公司,我们手伸到泥里面已经很多年了,我们是解决前端技术的问题,帮助各种各样的问题解决前端的页面,后来我们在中国发现商业模式更好的一个方式就是去帮企业解决问题。可能在国内的商业环境之下,我们又聚焦在了金融行业里面,所以说兔展一个成熟的业务是帮助以金融行业为代表的大型的B端企业去制作各种各样的内容,具体来讲就是一些Web里面的页面,比如说APP里面的页面、小程序里面的页面,像现在更多的车机,只要你有一个屏幕联了网它能渲染出来的页面我们都可以去做,我们是怎么样演变到心里越来越关注AI,在AI里面又做了越来越多的工作呢,就发现在这些Web页面当中其实视觉的元素承担的它发挥的作用越来越多了,一个图片、一个视频在,大家现在消费的每天看的无论是娱乐性质的APP,还是在金融类型的APP里面,这个交互体验是最好的,而传统的去制作这些图片和视频的方式还是用人去画、用人去拍,其实成本是非常高的,我们也是好多年以前就开始尝试用各种各样的技术去解决速度的问题、效率的问题,包括之前一些干的方式我们也用过,才发现现在用新的生成人工智能新的技术的方案其实是找到了真正能解决实际当中的问题了,而我们又更加聚焦的点是帮助企业解决它的一些需求,商业生图。这个跟咱们娱乐性质的文生图、图生图还是图片编辑当中最大的区别就是它的要求是精准、可控、可编辑,这个也是兔展一直花很多力气和有一些底层的科研能力积累的是在这方面,这方面恰恰又是stable diffusion本身很多问题解决不了的,它没有花很多的能力去在这方面。
骆轶航:他真没把手伸到那个领域去。
董应赛:对,而且商业价值也很大,像刚才骆老师讲的这是一个很长期的问题,因为在人类生活过程中企业扮演一个非常重要的角色,它无论是资金量、预算投入程度、大家很多更严肃的一些问题是通过企业这个场景去解决的。所以我们比如说今天讲得很好,企业跟学界怎么合作,兔展跟北大有非常多的合作,大语言模型,清华系是一个非常具有代表性的科研的力量,当然在视觉领域其实北大也是一个特别有代表性的科研的力量,甚至在全世界范围内很多工作做得是很好的,也利用了新一代的生成式人工智能的工具,我们跟北大恰恰在精准、可控、可编辑解决企业刚需的问题上做了非常多的工作。我们很多一些底层的控制器也得到了一些stability AI的应用,在它的一些官网上它的新产品也用了我们的一些开源的工具。比如说HuggingFace它也有很多的模型,我们的一些控制器和sdxl的结合也在HuggingFace是比较受欢迎的模型。
这就是我们在做的事,可能我们这个体量的公司还做不到特别多AGI的事,我们也没有聚焦语言的模态,我们觉得短期来看语言和视觉像人的左右脑一样,擅长不一样的任务,也基于不一样的底层模型,视觉大家主流的是diffusion,语言是Transformer,可能长期来看,我觉得Google提出Gemini是一个非常好的方向,可能未来最后都是一个统一的输入、输出都是不同的。
骆轶航:输入一开始就混一块去了。
董应赛:我觉得这其实一直以来,包括未来一定是一个长期的需要,而这些垂直的方向里边有很多的技术的门槛要求也很高的,需要很多底层的能力去解决的,我们在为这里边做一些贡献。就像刚才讲的,哪怕在中国大家可以把更多的资源和力量汇集到一块去,避免特别分散,可能这样也是一个比较好的方向。
骆轶航:做了很多非常,其实在开源社区里边,在给企业提供服务商做了非常多垂直AI应用的模态和方案。
接下来李乐,我们还是讲讲游戏开发这个事本身大语言模型本身对游戏开发的影响?昨天咱们聊了一个话题挺有意思,我一直想如果《三国志16》出现了我们用自然语言去玩这个事得有多美好,谈判、荀彧去登陆郭嘉,然后用自然语言跟他去聊,郭嘉还很傲骄,曹操能不能劝降孙权,这个事通过自然语言,这个游戏特别好玩很多,尤其是战略性的游戏,我们去讲讲游戏本身这个事情,我觉得我们从两个维度去聊,一个游戏开发、一个游戏玩家,从大语言模型应用到整个游戏研发这一块,会给整个游戏研发团队造成什么样一些变化?或者比方我们说游戏研发这事能不能Agent化?
第二,游戏玩家玩游戏这个过程能不能Agent化?其实玩游戏的很多过程,就像挂外挂一样,我们整个人可以游离在这个之外,关系是可以跳进跳出的,游戏玩家之间能不能Agent化?玩游戏能不能Agent化?玩游戏开发这个过程其实是大语言模型的介入会有哪些变化?从这两个角度我们聊聊吧。
李乐:我们先看开发阶段,今年大家如果关注股市,会看到大模型这一拨风潮起来以后,很多游戏公司的股价翻了一两倍、两三倍都有的,为什么呢?因为整个游戏开发过程本质上来说它就是一个内容的研发过程,现在的玩家其实他的要求是很高,很多游戏整个研发阶段有大量的投入。而有了大模型,大家会看到开源以后,很多人用AI绘画的能力去做游戏的一些原画,还有人用AI来做游戏代码的辅助开发。之前有一些券商,他们也通过各种渠道做了一些调研以后,发现游戏的研发成本有巨大的降低,初期可能都有20%、30%的降低,甚至有一些环节的降低可能会达到80%、90%的降低,这个其实就是说我们很多游戏股价上涨的一个很重要的原因。
从体验的角度来说,刚才讲得我用自然语言去玩游戏,这个其实是已经能实现的,比如说我们去年在行业首创了一个文字捏脸。就是进入MMO游戏的玩家,做的第一个事情是我要有一个形象,游戏里面提供了很丰富的维度,比如说我可以去捏我的脸型、捏我的发型、捏我的妆容,有很多的维度可以去捏,最终可以实现一个个性化的形象。但这个对很多玩家来说很复杂,真的捏得好的话有很长时间,很多玩家说我自己手残我很难干这件事情,所以我们干一件事情你只要输入一个文字就能完成捏脸了,这个文字我们支持什么呢?比如说可以支持你输入一个人名,比如说你输入黄蓉,我就给你把黄蓉捏出来了,这个依赖多模态理解的模型。还有比如说我可能输入一个黄蓉的外貌描述,我从书上找一个描述过来我输入给它,甚至我输入一些比较抽象的一些词,它也能给我捏得出来,所以从这个角度来说它其实改变了游戏玩家玩游戏的一个方式。当然昨天晚上我展示的文明的例子也是一个很好的例子,它就是用大模型做了一个AI军师,AI军师的意思是说我整个玩游戏的过程大模型会根据我整个战局的情况实时给我做一个策略推荐,我选择了一种谈判策略,AI还可以给我生成谈判的话术,它是这样一种体验。
骆轶航:某种程度上军师等于Agent某种程度上来说。
李乐:Agent,对,所以从这种角度来说,AI在一些我们讲适合的场景里面也是可以支持玩家通过自然语言的方式能够有更好的一个游戏体验,但是我不认为所有的场景都适合做这件事情。比如说一个动作游戏,我就是操作起来比较爽快,你给我搞成一个通过自然语言输入的特别慢,我根本就没有爽快感了,所以这就是我们去做应用的时候我们一定要选好我们的场景,你不能为了去做一个创新降低了玩家的体验,所以这个是很重要的事情。
骆轶航:我觉得你刚才前面讲的关于如果我们拆分游戏研发的各个环节,实现的各个环节,AI其实能够帮助他们在哪个环节做得更好,以及确保它有一个更好的连贯性、更好的实现,我觉得这个东西其实我听到了一些有亮点的很多东西,但我也听到了一些纠结。
大炜老师,您刚才聊的是一个很好的故事,不是一个用户的故事,是一个很好的研发,一个新的产品的故事了。但是我还是想知道我们知道今天WPS AI跟我一开始想的是不一样的,右侧对话框,给那么些东西只凭这个去做是不行,因为人的想法会变、需求会变,PPT的细节会变,你做这个事的场景会很复杂,这个都会变,其实这里边我就比较想,也是从这个角度我也想知道一个好的WPS AI跟一个人究竟应该是一种什么样的关系?就是说我们老说刚刚前面海波也说native AI这个概念有没有?我也想知道。现在WPS AI够不够AI?这是第一。
第二,它跟人是什么关系?现在基本上所有做文档的,其他两家我就不说了,其他两家做文档的现在都想做Agent,都想文档配一个智能助理,变成一个用户的Agent,在一个办公的环境中利用Agent帮助人去做一些人不愿意去做,或者不必去做的事。WPS AI对这个事是怎样的想法?
汪大炜:首先从我们的愿景上面来说,其实我们希望倒不是说一个助理帮你把所有事情干完,而是你身边有帮助理,针对于不同的场景、不同的需求给你做不同的事情。这里面还要分开来看,比如说它到底帮你做什么?如果按现在来说,我企业有很多的内容、知识、数据沉淀下来,我能不能把这些数据再利用,因为我们其实知道很多企业数据一年以后基本上这个文档不会有人翻了,大部分情况。有没有可能在未来帮助你企业把这个事情挖掘出来,这个助理这个事情是眼见很快就能实现的部分。
还有什么呢?你在过去的操作当中,过程当中你有很多事情不想自己动手干的、不会干的,现在目前我个人的判断来看,还很难做到说我说一句话你都懂我全部帮你干完,因为就算你真正的助理给你写一个PPT你都要改,你都不可能一遍过。针对这种操作和这种事情的时候,可能更多的是分不同的场景来帮助,他在这个过程中帮你把一些很繁琐的事情能变得简单,能把一个小时的事情变成2分钟的事情或5分钟的事情,在你整个流程里面有花十几个小时,我能不能拆成这里帮你节省一个小时、那里帮你节省一个小时?这是第二个方向未来是非常重要的一个部分,我们觉得可能会是眼见往这个方向发展。
还有一部分是灵感的枯竭,从文档创作的过程当中,生成的过程中一定会面临你需要一个思路,就像我们昨天晚上聊天,有个同学说得特别有意思,他说我想不到灵感枯竭的时候会找人聊天问问题,让他不断地问我问题,让我知道我接下来要怎么写,同样的道理,它会是一种助理,它会帮你激发灵感、激发你的想法,帮助你去创作。
针对这三种不同的场景我们认为会有不同的助理出现,它们有不同的功效,给你在不同的环境里面做支撑和辅助。
骆轶航:一个像是一个执行助理,一个像是灵感创意助理,还有一个类似于?
汪大炜:类似于公司那种智库,它可以帮你把所有东西挖出来。
骆轶航:前提是人的工作很重要,刚才所谓十几个小时的时间,现在花几个小时,如果我只用2分钟干十几个小时的事这件事还是不存在,你两个小时甚至写不好一个像样的Prompt让它把活干好,你想要让它把一个像样的活干好,至少要写一个40行的Prompt。
汪大炜:所以我们认为其实人在未来的办公当中它还是有非常重要的作用在里面的,他才是未来整个发展中很重要的引导方向的部分。所以它有一个想法、它有一个需求、它有一个东西迸发出来之后,需要有一帮助理帮你去实现,一帮的人帮你实现,可能是你的AI、可能是你的团队、可能是很多其他的伙伴等等,所以我们在这上面的观点上面更多的不是我帮你把所有的事情都干完,而是帮你在真正的过程当中提升你的效能,帮助你去完成更好的事情。
李乐:补充一点,我觉得最好的模式就是人机协作的模式,就是让人和AI能够更好地完成这件事情,协作的过程能够形成一个闭环,通过不断地反馈改进AI,也提升人的能力,但是对人来说你得提升你自己的业务能力、包括审美的能力,否则可能随着现在这个大模型发展得越来越快,AI的能力越来越强,可能对很多人的判断能力会提出更高的一个挑战,应该知道什么是好的。
骆轶航:未来你的能力最重要的部分是审美、价值判断,对于趋势和对于关键逻辑节点的把握。
海波聊聊吧,你们说你们商业化程度比较高,我都能想象,电商公司肯定要买,买了之后百搭,衣裳架子,可以做很多策划,可以做很多事,你们本身有没有想过你们未来有没有可能朝着一个类似于服装设计这样一个Agent,或者类似于一个提供什么样的东西这个角度去发展?
吴海波:肯定都是有考虑,我现在觉得WeShop像是一个工具,我认为AI现在的技术也是非常早期,早期的时候你作为一个工具是非常合理的,那我们早期无论是知乎、抖音,每一个信息节点是由这个发表工具定义的,每个公司的APP都提出了自己不同信息结构的定义。我们现阶段在AI领域做商拍的一个交互定义,把自己当作一个工具是非常合理的。
回到前面几位嘉宾分享过,现在你的团队需要建设一个跟其他公司之间差别的点,你的价值判断、你的审美判断,你选什么数据、你打什么标签,你怎么喂模型,这是垂直行业最重要的一个活,也是你将来要跟其他大厂,或者其他竞品公司竞争的核心,也就是说如果从一个很朴素的角度去出发,同样这么多人开公司,有些公司就会做得好,有些公司做得不好,为什么?因为有一些不能让模型求一个平均、或者求一个概率就能算出来的知识在里面。这家公司能在社会活动中、在这个领域里做得好,一定有它独特的东西,这是我们这种AI公司未来要去思考的,无论现在思考要不要做一个设计的Agent,还是说要做一个其他品类的,这不是特别重要的一件事情,现在关键是我这个工具能不能match到我现在Tech的水平,我客户的需求能不能Match到,我们从WeShop的角度出发,现在的设计它的审美是不够的。从我们内部团队的角度来看,它远远达不到设计公司需要它做到的那个水平,当然我们内部会持续研发这个东西 。
如果我做工具的话,我认为所有的核心在于背后的价值判断、理解一切东西,所以我觉得我们的产品工具也没有那么地作为核心的壁垒。前段时间我们在一个500人的群里把我们的前端代码开源了,我们本来只是想做一个内测,群加得太快了,本来想找一个几十人的群做一个,因为我们公司很少做开源。
骆轶航:你们在做灰度测试,那不叫开源。
吴海波:我们是把代码给了,所以是开源。因为我们现在整套定义的UI交互在AI时代不是一个壁垒,所以我是可以放出去,我是可以跟社区的人共建的,我们还在努力把开源的版本做得更好。
回过来讲,我们在垂直行业的知识积累:哪一个衣服是流行的,哪一个商品是漂亮的,它的机位、角度,在什么场景拍才是符合现在的审美趋势的,这些全都是Knowhow,怎么清洗数据、要什么数据,你数据从哪里买、哪里要都不一样,我认为这部分是未来你做应用型公司核心壁垒的地方。
骆轶航:最后每一个人给一个趋势性的判断,特别特别简单,我年初的时候别人也问我,我也参与过一个访谈2024年大模型往哪儿发展,大家普遍反映是应用落地年,我也就跟着这么说了,我自己对这个事还是有一些疑虑的,我也请各位帮助我们去做一个判断,2024年是AI应用元年吗?同意这个观点的A是靠谱的、B是扯淡,大家选A还是选B?从应赛开始,一句话。
董应赛:做预测很难,做判断更难,越来越多的公司会想尽一切办法让2024年成为一个应用落地之年的。
李乐:应用元年相对来说会比较靠谱的话,至少我觉得去年的爆发还是挺触目惊心的,很多人应该是看到了很多技术的突破,以及未来的机会。但是从我的角度来说,虽然我的模型还在追赶的阶段,但是我们在游戏里面的落地应该说是非常领先的,所以大家还是要继续做好模型的能力,我们游戏里面至今解决不了的问题,比如说你这个人设控制的问题,比如说我们最核心的人设IP是不用AI的,这些问题希望在未来能够得到一个很好的解决,等模型的能力提升以后,我们可以做出更好的应用来。
汪大炜:我觉得答案肯定是靠谱的,因为经过去年一年的摸索,你看今天的市场上面的AI应用开始出来了,并不是像我们说的没有应用,所以按这个趋势往下走的话,今年我们应该会能看到很多新的产品、新的APP会出来跟AI相关的。
吴海波:我们如果从十年以后回来看,那时候伟大的公司是这三年内成立的。
骆轶航:懂了,理解,靠谱,谢谢。现在接下来该提问了。
提问:各位老师好,我听了半天有一个非常大的疑惑,现在都在提AI native,但是我们现在的应用好像是现有的工作流程中加入AI,也不是特别是面向大众的,前一段时间GPTs出来之后,很多公司说我的创业项目在这一刻终结了,我们这些大公司里边的AI的项目就在这种背景下,我看起来好像不是AI native的项目,这种项目的核心价值在哪儿?
我刚刚听到一个观点,我们在做这些应用的过程中会积累很多的产品经验跟一些知识点,未来可能在新的技术上可以应用,但是对于我们 一些个人创业者来说,我们这种创业者来说我们切入点应该怎么样?或者说我们能不能换一个点,我们现在说做AI应该做的核心价值点在哪儿?
吴海波:我尝试着回答一下,正好我做的事情比较创业,虽然我们可能说有一个母公司,但是我们是比较独立的,你可以理解成我的团队也很小,在做之前跟你的状态有点像。
我想问一个问题,你创新了什么?这个问题是很关键的一个问题,因为你回过来问我做的应用到底有什么价值?前面我在最早的时候简单介绍你是α还是β?这件事情是值得去非常思考的。我们这样规模的团队要做事情最需要思考的就是AI native到底是什么?因为只有AI native,这个大厂的人才淹不过我,我才会跟着底下的foundation model一起成长,如果你不是AI native的你大概率就是会不行的,我们也在Twitter上看到过只做Prompt的,大家都看不起人家做的,也做得不错,他至少有一个入口、有一个起点,下一拨的技术进展他还有一个下一拨的机会。如果我们永远在想我做的这个东西有什么价值,我在产品思考上好像也没有什么创新,我觉得是可以不做的,我们前提就是我们到底有什么创新,这个问题是很关键的。
提问:各位老师好,关于有用的AI和有趣的AI,我各有一个问题想问一下,有用的AI通常是用于决策,我相信我们国家是应用大国,它稍微成熟一点,可能我们是最先对它开放物联网权限的,我们这个AI运行的过程中是会出现大量的谬误的,除了算力比我们人类强以外,其实我们人类的认知方式导致的局限性AI它一定也会存在,因为我们的认知就是不断地缩小一个关于谬误的范围而不是直击一个真相,所以当它效率出现的时候一定会出现大量的谬误,这个时候我们在应用方面该如何保证谬误导致的安全性的问题?我们该如何处理?甚至过滤一下如何把这个谬误在应用方面减少它为用户的一个影响?
关于有趣的AI这方面,我刚才看了我们现场的一些画作,是有点看像一个小孩子在画的,就是很精致、但是很难打动人,也就是真正能够打动人激发起人的审美情感的靠的是人格魅力,而这个是AI无法做到的,前一段时间热搜上面关于新浪它有一个词条叫做评论罗伯特,它因为评论出现了很多离谱、很多谬误反而变得很有趣,其实有趣它可以是一种对于谬误的包装,所以关于谬误这方面它在有趣方面,甚至有意识地创造一些低微性的谬误,关于谬误大家会怎么处理?我很想了解一下老师们这方面的想法。谢谢!
李乐:有趣这个我可以简单回答一下,我们游戏里面比如说做智能NPC这个事情,我们可能会发现跟有一个反常识的问题,我们可能未必需要特别理性、掌握了很多知识的一个模型,是因为没有人喜欢对一个非常理性的Agent去聊天的。有时候有一些模型本身的一些错误,或者一些小的一些瑕疵,玩家可能会去脑补它,他会自己觉得这个事情是非常有意思的,所以这就是说在娱乐这个场景里面,如果我们从有趣的这个角度考虑的话,可能会跟大家想的、追求的方向会不是那么一样,因为有趣是我们最核心的东西。
汪大炜:我来聊有用,谬误这件事情,或者说错误这件事情就算是人也会发生,我们在生活当中会发生这样的事情,我可能认为这个观点是这个样子,后来发现可能是我记错了,都会有这样的问题,所以在自然界、在我们现实生活中这依然存在,我们对于AI来说怎么样去帮助他变得有用。其实就像我们自己做事情是一样,当我得到观点我会去佐证它,我会交叉佐证它的真实性和有效性,从应用的角度来说,应该提供这样的需要精准的时候帮你去佐证,比如说搜索、比如说原文引用,比如说有权威的文献的摘要等等的部分,去帮助你去解决这个事情的有效性。还有就是让你去尝试,比如说我们举个例子,比如说我可能要在一个文档里面做一些分析,数据分析,数据分析的工具准确率目前来讲并没有那么高,可能只有80%、90%多这样的状态,很容易出错怎么办?你可以用一些引擎,用这种东西去尝试,就像我们摸索一个结论是对还是错的时候,你可以做一些尝试着试算,或者其他的场景来验证这个东西对不对,所以整个有用这件事情需要产品跟我们之前构建这么多的能力一起帮助你在未来的决策当中变得有用,但它最大的优势是以前还要从海量的知识中寻找,但它今天能快速地帮你把这些知识摆到你的眼前。