2022 年 9 月接近尾声的一天,Google 发布了文生 3D 技术DreamFusion,利用预训练的 2D 文本到图像扩散模型,提出SDS(score distillation scapling)方法,首次完成开放域文本到 3D的合成。
听到这个消息时,宋亚宸非常激动,他在商汤时就很关注 3D 生成技术。DreamFusion的发布对于整个3D领域是一个大的转折点,意味着 3D内容制作的成本和门槛趋近于零,虽然生成的 3D模型效果很差,但已经是一个大的技术变革。
几个月后,一家致力于通用3D大模型研发的AI公司VAST成立,创始人正是宋亚宸。
不到两年时间,这家公司已经成长为 3D生成领域的头号玩家,受到多方关注:
一个月前马斯克转载了Tripo 2.0的创作者视频;在有着“AI教母”之称的李飞飞新创办的公司Pre A轮融资BP里,VAST是唯一一家被提到的中国公司;Tripo也入选了A16Z的AIGC产业地图;在国际图形学顶级会议Siggraph上,创始人宋亚宸与英伟达黄仁勋、Sony和Unity高管同台发表主题演讲,是首位在该会议上进行主题演讲的中国创业者;在一年内,VAST创造了 3D大模型赛道的最大融资金额。
以上是Tripo 3D大模型生产模型的一些案例,可以看到Tripo 2.0相比Tripo 1.4生成效果明显提升
而取得这些成绩的公司VAST,背后的创始人宋亚宸是一位生于97 年、首次创业的年轻创业者。翻看他的履历似乎在这波AI创业者中并无特别之处,毕业于约翰霍普金斯,但学的专业跟AI毫无关系,反倒对神学很感兴趣。
他尚未毕业便加入商汤在CEO办公室实习并工作,先后负责战略、AI动画、AI游戏的业务,20 年开始做AI游戏,AI游戏事业部是闫俊杰兼任负责人,负责技术,宋亚宸称他则负责其他杂七杂八的事情,这对他今后的发展是一个大的转折点,因为游戏正好是他的擅长区域,他是一位资深游戏玩家。
21 年以001号身份作为MiniMax早期联创参与创建这家公司,负责MiniMax对外的事务,包括业务生态、数据、算力;22 年底便创办3D大模型公司VAST,获得知名基金绿洲、达晨、春华、英诺、水木等投资。
2023年,宋亚宸在国际图形学顶级会议Siggraph上演讲
这位当前3D大模型领域的明星公司VAST的掌舵者宋亚宸,非常自信、犀利、张扬、侃侃而谈,喜欢谈论信仰,喜欢用“眼里是否有光”来看人,从小在国外长大,但偶像不是马斯克,而是毛泽东。
他认为自己是一个有信仰的人,而这个世界上有信仰的人很少,这种信仰不是指技术信仰,如果一个人相信一个技术能改变世界,这是另外一回事。在小说《源泉》中讲述了一个天才建筑师霍华德·洛克,他坚持自己的原创和风格,拒绝妥协和迎合,他坚信自己会造出最牛的建筑,其他声音他都不在意。宋亚宸认为这是有信仰的人。
同样,宋亚宸坚信未来会出现一个类似于抖音这样的3D内容平台。
成功的事业,团队非常重要,VAST CTO梁鼎,师从戴琼海院士,曾担任商汤通用视觉和语言大模型发起人和垂类语言大模型负责人,首席科学家曹炎培,师从胡事民院士,前腾讯ARC Lab和AI Lab 3D方向专家……据宋亚宸透露,团队70%都是技术人员,大多来自清华本硕博。
当问到一些厉害的人为什么愿意跟随他时,他认为这是一群有信仰的人的相聚。宋亚宸认为自己最擅长的两件事就是:将自己的想法装进别人的脑袋,把别人的钱装进自己的口袋。
宋亚宸
这是奥里森·马登的著作《这一生,为自己而活》的思想,里面说:“世界上最难的事有两件,一是把自己的思想装进别人的脑袋,二是把别人的钱装进自己的口袋。”在这本书中,马登探讨了成功与影响力的本质,指出将个人的理念植入他人思维,并在过程中获得认同,是一种高度成功的表现。
以下是AI科技评论跟宋亚宸的对话。
AI科技评论:听说您对神学很感兴趣?
宋亚宸:从小就是,回家坐禅,背经文。也对历史很感兴趣,从小收集古币,小时候觉得背道德经、金刚经挺好玩的。我高中是一个教会学校,很喜欢跟大家去辩论。
AI科技评论:所以在约翰霍普金斯念的神学?
宋亚宸:高中很想报神学,30 所学校里20 所报了神学,但是约翰霍普金斯没有神学,最后选择了发展中国家经济和中东政治,在以色列待了一年,学的是希伯来语与阿拉伯语。
AI科技评论:研究神学给您带来什么样的影响?
宋亚宸:让我成为一个有信仰的人。但这种信仰跟宗教无关。我很喜欢《源泉》这本书,里面的主角天才建筑师霍华德·洛克,他坚持自己的原创和风格,拒绝妥协和迎合,虽然周围的人都看不起他,但他坚信自己会造出最牛的建筑,其他声音他都不在意。我很喜欢这样的人,做事很纯粹,我认为这是有信仰的人。AI科技评论:现在AI圈很多人都有信仰吧,例如信仰AGI?宋亚宸:信仰一定是触及到非常本质的东西,例如世界是怎样诞生的,谁创造了这个世界,这个世界上为什么有苦难,人为什么会活着,这些问题才是信仰真正要去解决的问题,如果一个人相信一个技术能改变世界,这是另外一回事,是技术信仰。AI科技评论:您在商汤主要做什么?宋亚宸:我在美国待了八年,还没毕业就加入商汤CEO办公室,2019年开始做AI加动画,那时动画是一个劳动密集型产业,是工厂流水线的形态,并不是我们想象中的创业行业。所以那时AI可以用到动画游戏行业中,将从业者从繁重的工作中解放出来,AI更多用到创意上,但是现实很骨感,AI进步的没那么快,那时做了很多事情,也没有很深入。AI科技评论:19 年主要是CV技术,您主要做哪部分工作呢?宋亚宸:19年那时CV技术已经很成熟了,给AI在动画领域落地提供了一定的基础条件。我主要是把商汤现有的技术包装成解决方案,卖给一些动画公司,但是中国的动画公司比较穷困,跟商汤数亿的单子比起来这不是一个赚钱的生意。当时也觉得toc很有意思,就找了一些供应商合作,做了几个百万粉丝的动画IP。因此商汤内部也正式成立了一个动画团队,专门去制作动画。
20年开始做AI加游戏,这对我今后的成长是一个很大的转折点,因为我很喜欢打游戏、看动画、看番、小说,很爱玩,但我不认为自己是标准的二次元,就跟我喜欢研究神学,但我不信教一样。
那时可以做一些大单子,因为游戏公司本身有钱,很多上市公司对股价很敏感,那时候去做AI就对股价有比较好的提升,所以当时是AI加游戏的好时代,也出了很多AI 跟游戏结合的公司,最重要的是20年下半年原神出来了。
原神出来后,大家都觉得米哈游的成功是因为其技术有壁垒,而不只是画风或者审美的优势,所以大家就开始卷技术,那时AI加游戏就可以卖比较多,赚了不少钱,商汤也是在20年年底成立了AI游戏事业部。从一个人变成了一个事业部。
AI科技评论:您是事业部的负责人?
宋亚宸:AI 游戏事业部是闫俊杰兼任负责人,负责技术,我负责其他杂七杂八的东西。21年从商汤离开,参与创办MiniMax,负责MiniMax对外的事情,业务生态、数据算力这些。
AI科技评论:第一份正式的工作就是在商汤,三年里您从商汤学到了什么?宋亚宸:我一开始做战略,做战略的思维跟我过去在学校的学习很不一样。在学校学习中东政治和宗教理解了如何拥抱世界的复杂性,研究这个世界上非常复杂的东西,例如一个人群,那么描述一个人的tag就有好多个,教育背景,宗教背景,历史、民族、语言……以前就是去学习世界的复杂性,独特性,以及身上不同的tag对一个人的影响。
但是在做战略的时候,其实要反过来,Deductive(演绎的,从一般到个体)、Inductive(归纳的,从个体到一般)这俩是相反的,尽快看清事物的本质,要怎么去做决策。
比如自动驾驶这件事要怎么做,遇到这个问题要怎么看清事物的本质:来画一个坐标轴,有4个象限,y轴上面是高速,下面是慢速,x轴左边是密集人群,右边是无人,就会发现,高速无人就是高速公路,低速无人就是例如AGV(自动导向车),低速人很多就是园区、景区,可以划分出了这样一个图。那么在每一个区域其实都有不同的自动驾驶公司在做,就能把市场进行划分,我要怎么进入到这个市场,战略是什么,就得不停地去看清事物的本质。
AI科技评论:做战略就是要能快速去弄懂一件事情的本质,能快速地总结和抽象。宋亚宸:是的,学到的第二件事就是人在做有趣的和自己喜欢的事情上,本身就是有优势的,在任何地方花的时间将会成为你和别人最深的鸿沟。
例如我从小喜欢打游戏,爸妈不让,就偷着玩,内心玩得很不开心,因为每次玩游戏收到的都是批评和阻碍。而现在已经自洽了,打游戏积累的经验已经成为我的核心竞争力。
比如同是创业者,其他人没打过游戏,我打过游戏,进入游戏行业就顺理成章的,但是对于一个不打游戏的人,是无所适从的,即便他读10篇研报、听20个专家访谈,跟50个制作人交流……也很难把对游戏行业的认知补上,时间就成了最深的鸿沟。去研究一个游戏产品和内容,我也当然更犀利。
人要坦然面对自己不擅长的事情,尽可能多做自己擅长的事情。
AI科技评论:现在做CEO擅长吗?宋亚宸:最初不太擅长。我在商汤早期时很不擅长reading and writing,就去补,很痛苦,觉得太难了,更喜欢通过听和说去交流、去获取知识。后来就跟自己和解了,那我就去做性格擅长的比如销售、项目管理,现在创业这就成为我的核心竞争力,招人、搭建团队、管理、融资、业务。AI科技评论:如何成为核心竞争力呢?宋亚宸:换句话,创业团队非常重要,那么我的核心竞争力就是擅长把自己的想法放到别人脑袋里,让优秀的人为我所用。
AI科技评论:离开 MiniMax是为了创业?MiniMax也做过3D人形,后来放弃了,您为什么选择出来继续做 3D?宋亚宸:22 年底谷歌发布了文生3D的技术DreamFusion,这是大的转折点,终于看到3D内容制作的成本和门槛接近零,虽然效果很差,但这是一个大变革。而 MiniMax那时候作为创业公司得聚焦,这也是它的优势,不准备做3D大模型。所以我就有了出来创业的想法。
AI科技评论:在MiniMax也可以继续做 3D啊。
宋亚宸:创业意味着拥有足够多的话语权。
AI科技评论:为什么这么说?宋亚宸:我认为一个人的初心很重要,我不是一个能跟自己别扭着过下去的人。很多人创业的初心是不一样的,例如有些教授创业可能要担心影响评院士;有些高管年纪大了,要做下社会影响力变现;还有人是一群兄弟跟着他没赚到钱,创业带他们赚点钱。
但是对我来说创业其实很简单,就是为了去把一件事情做成,实在不行可以赔钱做,比如说这家公司要是没有钱了,我可以哪怕借钱继续做这个事,实在不行了这家公司倒闭了,又开下一家公司,继续做这个事。做成这件事才是关键,创业只是一个方式。
我本来不想创业,如果MiniMax能让我在那做3D也行。
AI科技评论:离开时正好是ChatGPT出来,为什么没有选择大语言模型,可以融更多钱。
宋亚宸:我不喜欢,我不觉得这东西有什么好玩的。我喜欢游戏,我喜欢动画,我喜欢 3D 的虚拟世界,我相信未来会有 3D 的「抖音」。
AI科技评论:什么时候开始相信 3D有前景?
宋亚宸:一直都相信 3D有很大的前景,但是不知道怎样的路径,不知道怎么做成。之前在商汤还说过要做 3D 的横店、做 3D 迪士尼,为此画过各种各样的PPT,当时还有人说我是别人是先看见再相信,我是先相信再看见,还是拿着望远镜。
所以我是一直想做 3D这件事,但是一直没找到合适的路径,没有找到答案,直到谷歌的那篇论文发布。
AI科技评论:为什么会有一个 3D的「抖音」呢?
宋亚宸:文字、图片、视频、音乐这些信息载体都有自己的内容平台,3D 是唯一一个没有自己的 UGC 内容平台的一个信息载体,每一个内容平台的商业化都是经过无数次验证是赚钱的,例如小红书、抖音、快手、 TikTok 、微博都是通过做内容平台做起来。
AI科技评论:能做多大?
宋亚宸:如果要做一个3D的内容平台,商业化前景很广,很有可能做出来一个千亿美金,甚至万亿美金的公司。
AI科技评论:看起来现在还不能做成一个 3D「抖音」平台,有什么样的前提条件呢?
宋亚宸:会发现所有的内容平台,都发生在大众级别的创作工具出现之后,但大众级别的创作工具出现并不一定意味着新的内容平台出现。
AI科技评论:怎么定义大众级别的创作工具?
宋亚宸:比如说打字法,比如说手机摄像头,它都有三个特征:第一,创作的门槛为零,第二,创作的成本为零,它的 fix cost(固定成本) 和 variable cost (可变成本)都几乎等于零,第三,它一定是实时的创作。打个字,这个字就出现了,拍了张照,这个照片就立马出现了。
但是在3D大模型出来之前,这三点都达不到。创作门槛、成本、时间极高。所以说 3D 一直没办法出现它的内容平台。
3D 大模型就具备这三个特征:第一,创作门槛几乎为零,因为只用文字或图片就能生成一个 3D模型,第二,创作的成本几乎为零,单3D模型的推理成本几乎等于零,第三,几乎是实时生成,就只要几秒钟就可以生成一个3D 模型。
AI科技评论:大众级别的创作工具会往什么方向演进?
宋亚宸:不断往提升创作效果演进,比如手机摄像头它刚出来的时候是180P(指像素),后来有360P、720P、1080P、4K,8K,3D模型的生成效果也可以对应到,Tripo1.0 应该有360P,Tripo2.0 应该有 720P,我们认为明年有机会达到 1080P甚至 4K。
AI科技评论:3D生成模型的成本属于低的?跟大语言模型和多模态生成不一样么?
宋亚宸:3D生成时可以跑在一个非常差的卡上,而且生成只要几秒钟,算一下一个 3D模型的生成成本是很低的。
AI科技评论:听起来会有一个3D「抖音」平台的逻辑是通的,但是这个内容平台具体是怎样的呢?
宋亚宸:在消费端VAST想要提供「轻内容的强交互」,例如 1-2 分钟的“游戏”体验,觉得没意思,推荐算法再推给一个新的 1-2 分钟的“游戏”体验,就像抖音的 feed 流。
这个平台上就是一群想要消费重交互轻内容的人,背后是一群ROI算得正的 3D创作者去提供内容。里面还会出现经济体系,例如开始卖游戏资产,卖皮肤,但是我们认为在大家都不花钱的情况下这个平台就可以赚钱了,这是我们长期认为会发生的事情。
AI科技评论:什么是「轻内容的强交互」?
宋亚宸:在消费端,有需求很重要。可以画四个象限,就像无人驾驶一样,x 轴其实非常简单,就是它是重内容还是轻内容?什么叫重内容呢?就是要花 5 个小时、20个小时去玩的东西,比如说黑神话悟空。什么叫轻内容呢?短视频,这很好理解。y轴就是强交互和弱交互,强交互是什么呢?比如说原神。电影就是弱交互,没办法去改变什么,就只能看。
重的两端都有人做了,重内容的强交互是黑神话悟空,就是所谓的游戏。重内容的弱交互是谁?电影。轻内容的弱交互是谁?短视频。而轻内容的强交互是空白的。
AI科技评论:轻内容的强交互,能举个例子吗?
宋亚宸:有一个趋势,我们发现游戏越来越短了,比如去年年中的时候,短时间内出过一个全中国畅销排行榜第一名的游戏,叫做全明星街篮派对,原来打一盘篮球的时间大概是在一个小时不到,现在打一盘篮球时间在 2 分钟。就 11 分,谁拿 11 分谁就赢,11 分什么概念?四个三分球就赢了,而且带各种技能。所以一两分钟玩一盘游戏,这就是所谓的轻内容的强交互。
这跟黑神话是完全不一样的东西了,但是他们又不属于3D内容平台的新范式,因为它还是很重复的,就一分钟两分钟打一盘篮球,如果没有 feed 流推荐新游戏,天天打的话就很无聊。
AI科技评论:所以未来这个平台上 3D的内容都是游戏?
宋亚宸:把所有出现了 3D的娱乐项目都叫做游戏,在全世界有近三千亿美金的市场,未来我们会把现在所有游戏都归在 3D内容的一个子类里,就跟现在的短剧一样只是视频的一小部分。
AI科技评论:3D和其他信息载体的区别?
宋亚宸:文字、图片、视频、声音、音乐各种各样的信息载体,当我们把它作为内容来去呈现的时候,其实都是用 empathy 去体验内容,什么empathy?就是移情。比如你在读金庸的小说的时候,你带入的是张无忌,看吃播的时候,带入的是吃东西的人,会用对方的视角去看世界,是没办法跟这个世界产生实际的交互,是他带着你去跟这个世界进行交互的,所以叫移情。
另外一种消费内容的方式,我们把它叫做agency,就是你是有自主意识的消费者,比如,你在所有的 3D 的内容里面,你其实代入是你自己,哪怕你在玩王者荣耀,你玩后羿不会觉得自己就是后羿,而是自己完成了杀敌、推塔等游戏体验。
玩黑神话悟空的时候,其实也想你带入自己,但是它有一个问题,黑神话悟空是个太硬核的 3A游戏,有点像极致的第九艺术,导致它有点像电影,跟视频比较接近,每次打完一关,给你看段剧情视频,比如说玩黑神话只能按照它的剧情来,自由度比较差。
所以3D其实是一个讲究agency,自由度的东西,自由度越高你的体验越好。最本质的的区别就是这个地方用的empathy,那个地方体验的是agency,但有些东西比较模糊,两者都有,比如说有什么交互电影。
元宇宙这个词等于无限自由度,之前的元宇宙都有一个问题,虽然有很强的自由度,但没有足够多的 3D内容做填充,所以导致它的自由度是伪自由度。
最极致的 3D内容体验,一定来自最极致的 3D内容供给,而 3D 内容供给它一定来自 AI 生成的,肯定不是人工能搞出来的。
AI科技评论:Tripo现在能做哪些事情?
宋亚宸:包括静态3D模型的生成、骨骼自动绑定、动作生成、3D风格化,及各种格式的导出和转换,都可以在tripo3d.ai中体验。
AI科技评论:Tripo模型现在发展到什么阶段?
宋亚宸:Tripo1.0类似于Midjourney V2,或者说 Tripo1.3 类似于Midjourney的V3,类似于GPT-3,Tripo2.0 类似于 Midjourney V4、ChatGPT。
AI科技评论:Tripo现在有多少用户?
宋亚宸:社区有接近三四十万专业开发者,主要是海外,国内没怎么做,海外付费能力强,大概有1- 2 万多个中小客户的API调用。
AI科技评论:如何去做用户增长?
宋亚宸:我们不做用户增长,让其自然增长,没花过一分钱买过量。更多的增长是来自于社区,我们培养了一些 KOC、KOL,大家会在社交媒体等平台去展示自己的一些作品和showcase,其实会吸引到很多用户来。然后这些新的创作者加入后,他们又能成为新的KOC、KOL。
AI科技评论:怎样吸引到现在的核心团队成员加入?
宋亚宸:不是因为我有多强,而是一群有信仰的人汇聚到了一起。在AI 大航海时代真正相信One Piece(海贼王中的“大秘宝”,最终的宝藏)的人太少,简单点说就是有信仰的人太少了。即纯粹地相信一件事,并觉得这件事做成会很牛,愿意 all in。真正愿意这么做的人很少。我们就是这样的一群人。
AI科技评论:商业模式是什么?
宋亚宸:现在技术还在往前发展,商业模式还在探索中,不过我们未来一定会专注于ToC,目前也做ToB,Tripo Web工具是我们的一大亮点,它通过会员订阅和API接口为个人和企业提供服务。3D艺术家、游戏建模师、独立开发者等个人用户可以通过订阅获得强大的建模工具。对于企业客户,我们不仅提供API接口,还提供定制化的专业解决方案。
AI科技评论:现在关注收入吗?
宋亚宸:现在更希望去聚集更多的创作者,并在 3D的落地场景里去打的更深,然后去和这些行业去做结合的解决方案,和这些行业去更给他们创造有价值的、完整的、可用的 3D 模型。这是我们最重要的事情。本身市占率有百分之七八十。
AI科技评论:主要的应用场景有哪些?
宋亚宸:主要有四大类的应用场景,第一类是传统的 CG 行业,比如说游戏、动画、影视、虚拟制作,第二大类就传统的工业,工业设计,鞋服、家居首饰、玩具、食品、香薰、蜡烛、灯具、文创等,核心就是做柔性的定制化生产。第三大类就是所谓的新兴行业,就比如说元宇宙,比如说XR、MR,比如说具身智能里面的仿真模拟,比如说数字孪生,再比如说数字人;那第四大类我们把它叫做传统的互联网行业,比如说社交、直播、电商、教育等等。
AI科技评论:如何跟大厂竞争?
宋亚宸:大厂是最穷的,就比如说我们做 3D,大厂的算力、人才、预算、数据在 3D 上面肯定是没有我们多的,预算肯定是没有那么多的,那为什么我们打不过他们?
AI科技评论:比如在大语言模型,刚开始一些创业公司,智谱、百川这拥有先发优势,但是下半场像字节、快手现在都追上来了。
宋亚宸:两个方面来说,没有哪一个新的内容范式的内容平台是过去的大厂做的,抖音、小红书、Snapchat都不是,新的内容平台不是老玩家做出来的,一定是新玩家。
短期来说,创业公司更聚焦,而且创业公司做大语言模型,有点像跟谷歌比搜索,但是3D大模型是另外一回事。
AI科技评论:您有偶像吗?
宋亚宸:毛泽东,当年毛泽东能把那么多优秀的人(各种条件的)集中到井冈山,在那么一个生活条件很差的地方,只是因为这些人真正相信他们在做的事情,就是要解放中国。
AI科技评论:在技术发展史中,每一个新技术都是欧美国家走在前面,特别是像现在的AI大模型,中国可能一直都是 Copy to China,那么在 3D这块,我们领先了,您觉得我们的竞争优势是什么?会不会被赶超?
宋亚宸:其实我们看文字、图片、视频、声音和音乐这些内容的生成,每一个领域,文字会想到ChatGPT,视频生成会想到 Runway,Sora,音乐想到 Suno,没有一家中国公司,但是 3D现在VAST是全球第一,对比之下Tripo的模型生成效果确实是最好的。3D 是一件非常新的事情,这个领域的核心论文都是中国人和华人,所以这个行业里反而是中国人占主导地位,在3D大模型这个领域,全世界最领先的是一家中国团队和中国的学术界。「雷峰网」「雷峰网」