IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    「阶跃星辰」的一次豪赌

    36氪发表于 2025-05-12 08:23:39
    love 0

    文|邓咏仪

    编辑|苏建勋

    5月8日,久不露面的阶跃星辰CEO姜大昕,出现在北京的一场媒体沟通会上。

    “在多模态领域,如果任何一个方面有短板,都会延缓探索AGI进程。”姜大昕给出了一个鲜明的判断。过去一年中,他在不同场合都在反复提及:多模态是实现AGI的必经之路。

    在六小龙中,比起在融资、市场声量上有烈火烹油之势的其他选手,阶跃星辰的低调格外显眼。

    这家公司最不声不响,但又能有独特的身位而被记住——过去两年中,它没有参与应用投流的狂热之中,在To C应用上也仅是有所试水。

    多模态如今成为了阶跃最亮眼的标签,这家公司正在倾注大部分力量探索这一道路。

    成立两年,阶跃一共发布了22款自研基座模型,覆盖文字、语音、图像、视频、音乐、推理等。这其中,有16款是多模态模型,占比超7成。阶跃也因此在行业内被称为“多模态卷王”。

    但多模态的发展阶段和语言模型并不相同。

    在技术路线已经收敛的语言模型领域,几乎所有公司都已经沿着差不多的技术路线迭代,但多模态的技术探索尚在早期。从顶尖大厂到AI初创,都像在迷雾中穿行。

    在2024年Sora震撼全球时,不少AI创业者就有着不一样的意见。“Sora出来的时候,其实我们比较失望,我们觉得它的主线应该是做理解生成一体化,但他们只做了生成,没怎么做理解。”姜大昕表示。

    姜大昕对《智能涌现》表示,如果对标语言模型的技术演进时间线,阶跃所押注的“理解+生成一体”的原生多模方向,可能还处在GPT 1.0之前,Transformer刚出来时的阶段。

    多模态的一大难点,是融合过程中不能损失单个模态的性能,尤其是不能降智。阶跃采取的技术路线可以说是“难上加难”:同一个大模型,既要做理解,也要做生成。这是阶跃星辰从成立之初,就定下的发展主线。

    做理解和生成,是原生多模方向的一体两面,这意味着:

    能理解:模型能理解画面中的物体关系,这需要生成端来监督

    能生成:生成的内容,也需要理解来控制,保证其不是超出物理世界认知的

    直到2025年GPT-4o image的发布,吉卜力、拟人化的风格滤镜点燃全球,多模态又重回全球AI舞台的中心。而DeepSeek为代表的推理模型的进步,也能够为多模态的技术探索,补足一块重要的拼图。

    多模态和Agent,是2025年当仁不让的两个关键词。在过去一年中,姜大昕也在不同场合反复强调:多模态是AGI的必经之路。而Agent,则是当下业界在AGI道路上探索出来的初始形态。

    当前,阶跃也在重点布局Agent这一领域。在汽车、手机、具身智能、IoT等关键应用场景里,阶跃已经和Oppo、吉利汽车集团、千里科技等企业合作,将Agent应用在关键场景中。

    在DeepSeek一飞冲天,引爆全球之后,它的另一面是——当原来坚如磐石的技术壁垒被击穿,所有人都不得不走到了一个焦虑的十字路口上:接下来,技术路线该怎么走?

    大厂有存量的场景和用户,尚有充足的时间腾挪方向,加大火力。对大模型初创而言,这个拷问尤为紧迫。短短两个月时间内,大模型六小虎有裁撤团队、砍To C应用者;也有停止投流者,重新将重点放到语言模型中。

    对创业公司而言,去探索更前沿、更未知的领域,或许是这个阶段更重要、也更确定的事。

    对阶跃而言,这也是一场豪赌——现在,阶跃内部已经组织起不同技术路线的数支团队。“哪一条路线都有可能出现突破,要形成并发的状态。”姜大昕说。

    在这次沟通会上,姜大昕除了披露了未来的模型和产品计划外,也对当下的多模态领域给出了关键判断,经《智能涌现》编辑整理:

    多模态任何一个方面有短板,都会延缓AGI进程

    • 追求智能的上限仍然是当下最重要的一件事。我也在很多场合不停的重复:多模态是实现AGI的必经之路。

      过去两年,我们看到整个行业的模型进化,基本上还是遵循了这个路线图:模拟世界—探索世界—归纳世界。

      从技术路线上讲,眼下的发展,也是从单模态到多模态,从多模融合到理解生成一体化,再从强化学习到AI for Science。

    • 阶跃从一开始就始终认为:多模态对通用人工智能非常重要。为什么?

      首先,AGI对标的是人类的智能,人的智能是多元化的,每个人除了有来自语言的符号智能,还包括视觉智能、空间智能和运动智能等等,这些智能是需要通过视觉和其他模态来进行学习的。

      从应用角度来讲,我们无论做什么应用,都需要AI能听、能看、能说,这样它才能更好地理解用户所处的环境,并且和用户进行更为自然的交流。多模态可以让智能体充分地理解和感知这个世界,这样它可能更好地理解用户的意图。

      所以,在多模态领域,任何一个方向出现短板,都会延缓实现AGI的进程。

    • 在多模态层面,下一步的模型发展趋势有两点:一是,在预训练的基础模型上加上强化学习,可以激发模型推理的时候产生长思维链,极大地提高模型的推理能力。

    • 从OpenAI发布o1,到春节前DeepSeek R1发布,我觉得这是一个标志,推理模型从一个趋势变成了范式,现在语言模型基本上是推理模型一统天下。

      这是非常火热、大家都争前恐后在做创新的地方。稍微更新一点的,大家不太注意的一个能力,其实是如何把推理引入到多模态领域。

      比如,我给一张这个图片(足球比赛),问这个模型这张图片是谁的地方,是谁的主场?这是把模型的感知能力和内部知识能结合起来,一起去做推理,就比原先的视觉理解就强化了很多。

    △来源:阶跃星辰

    • 第二个趋势是多模理解生成一体化,更准确的讲,是视觉领域的理解生成一体化,理解和生成都用一个模型来完成。

      为什么一定要做一体化?比如这个视频中,老师写板书,老师的手的姿势,粉笔在黑板上写的痕迹,比如Sora是可以去模拟之后的样子的。但是老师写了一半停下来说他以后会写什么内容,这是需要理解模型来预测的。

      生成的内容是需要理解来控制的,你为了保证生成的内容是有意义的、有价值;

      而反过来,理解是需要生成来监督的。只有当我能够生成,生成的时候,我才知道我是真正地理解了。

      理解生成一体化,能更好地帮助生成的推理。

      我举个例子:人在画一幅大画的时候往往不是一下子就全画完的,现在模型画图的时候一次性就出图了,但人画的时候会有一个构思,可能想大的结构是什么样的,后面再画细节,是一步一步画出来。

      画图实际上是一个思维链的过程,为什么我们模型生成的时候不是思维链?就是没有理解生成一体化,我要画一个框架根据这个框架再画点东西再生成、根据生成的东西再生成,甚至觉得这笔画得不太好,反过来改一改再生成,现在就还是堵到这个问题上,就是理解生成不一体,所以他很难用长思维链一步一步的方式去做生成。

    △来源:阶跃星辰

    • 在语言领域,Predict next token(预测下一个字元)是唯一任务,整个训练的过程就是看你判断Predict得对不对。

      平移到视觉领域,大家就会问:我们能不能用一个模型去做predict next frame(预测下一个画面)?这是视觉领域的一个灵魂拷问。很不幸,这个问题仍然没有被解决。

      没有解决的原因在于模态的复杂度。大家说,语言是很复杂的,但是从统计来说,语言是一个简单的东西,因为语言至多就十几万个token。

      但在视觉,一张图片,我们先不说视频,一张图片1024×1024,就是100万维,每个维度还是一个连续的空间,难度是不一样的。

    • 在语言领域,2017年Transformer出来,对业界最大的意义在于,这是一个可以scale(扩大规模)的文本的理解生成一体化的架构,在那之前,其他的模型基本都不能Scalable。

      2020年的GPT-3,意义在于:我们第一次把海量的互联网数据放到了这个scalable的架构上,用一个模型处理所有NLP(自然语言处理)的任务;

      2022年,ChatGPT出来了,就是在预训练的模型的基础上再加上指令跟随,这是GPT-3.5做的事情;

      GPT-4的时候,这个能力就进一步增强了,"GPT4时刻",指的就是在这个模态上,我们的模型真正能达到跟人的智能差不多的水平。

      现在,我们加上了推理,就可以解决非常复杂的问题。

    • 再往后是什么呢?很多人就觉得应该是在线学习或者是自主学习,就是能够不断地自己根据环境去学习到新的知识。

      到目前为止,我们觉得语言模型的技术路线基本上收敛了,没有出现别的分支。所以,我们相信其实视觉也是可以follow同样的路线。

      那第一步就是有一个非常scalable的架构。多模态的“理解生成一体化”这件事,类比到语言模型,甚至应该是在Transformer这个level的事情。那时候还没有GPT,Transformer是2017年出来的,GPT-1是2018年出来的。

    DeepSeek告诉我们,投流的逻辑是不成立的

    • 我觉得DeepSeek出来给我们一个经验,就投流的逻辑是不成立的。DeepSeek从 来没有做投流,它如果放开这个流量,破亿是没有问题的。

      当然,我们要重新思考一下,AI时代的产品的流量增长,是不是真的像传统的互联网还是靠投流上去的,DeepSeek出来以后,给大家一个重新看待这个问题的窗口。

      不光是DeepSeek,像《哪吒2》《黑神话悟空》其实都有一些共性,不是靠传统的铺天盖地地投流积累用户的。

    • 模型的突破是早于商业化的。我刚才做了一个比喻,先有GPT-3.5才会有 ChatGPT,先有多模融合和推理模型,才会有现在成熟的Agent。先要有了多模理解生成一体化,尤其是scalable的一体化,才能真正地做到人形机器人的泛化。

      如果是那个东西突破了以后,它的价值就不光是在Agent这方面了,我最想看到它在具身智能的泛化、包括建立世界模型方面有新的突破表现。

    △来源:阶跃星辰 

    • 2025年,我们将产品名称“跃问”改名叫“阶跃 AI”,就是意味着它从一个类ChatGPT的产品,到Agent的能力的转变。

      对Agent的产品和商业化层面,我们的智能终端其实是ToC的,虽然我们和头部企业合作,但阶跃这些和头部企业合作的产品,最终是服务C端。

    • 为什么我们还会坚持基础大模型研发?我觉得现在这个行业的趋势技术发展还是在非常陡峭的区间。

      2024年Sora刚出来,给大家的震撼很大,但今年回头去看,大家会觉得Sora没有什么神奇的。阶跃不想在这个过程中放弃主流增长或前进的��势,所以我们还是会坚持做基础模型的研发。

      在应用的角度来,我们一直觉得应用和模型是相辅相成的,也就是说模型可以决定应用的上限,应用给模型提供具体的应用场景和数据。

      数据也是非常重要的,产品形态随着模型的演变,这是动态发展的。

    绑定行业头部公司,专注终端Agent

    • 随着模型能力不断的增强,有什么样的模型,决定了有什么样的应用可以被解锁、可以成熟和繁荣。

      最早期的时候,比较流行的是各种各样的聊天机器人;有了Agent以后,我们就可以用它来解数学题、写代码;

      下一步是非常火热的智能体,我们相信终将从数字世界走向物理世界,延伸到智能驾驶和人形机器人等领域。

      Agent其实在2023年就被讨论,但到2025年变得非常火热。我的理解是,Agent爆发需要两个必要的条件,一个是多模态的能力,另外一个是慢思考的能力,这两个能力恰好在2024年的时候取得了突破性的进展。

    • 我们选择了智能终端Agent作为我们的方向。首先是,Agent要能更好地帮助人类去完成任务,理解用户所处环境和任务的上下文。很多的终端是用户的感知和体验的延伸,比如手机、耳机,在发起任务的时候,它已经知道任务的上下文了。

      第二是,很多的智能终端或者是终端的设备,就是帮你完成任务。比如说微波炉,我家里的微波炉有上百功能,但是我很少用,所以我希望它是一个Agent,将来放一个芯片在微波炉里,就可以直接跟它对话,智能终端是完全有能力实现这件事情的。

    • 我们其实现在在智能终端上也选取了几个重要的终端:手机、车,还有机器人。

      我们和各个方向的头部企业展开了深度的合作。比如Oppo的一键问屏的功能,背后使用了阶跃的多模态的模型。拍照片,处理照片,或者是识别一下照片里面的人物做一些问答,导航功能都可以。

    • 对于成为垂类行业的供应商,而不是直接To C或者To B,我们是觉得这个东西很新,头部企业已经有了大量的用户,有了场景,我们才能去尝试这个模型究竟怎么做。

      如果我们上来做ToC的话,我们第一件事情还要做grow user(用户增长)和场景增长。

      所以,我们先和合作伙伴一起合作,等这件事情探索清楚了,将来是不是自己做,我觉得都是有可能的。

      现在所有的设备都是孤立的,其实有一个很诱人的场景,对一个用户来说是,希望它的Agent或者是助手,是能跨设备的,这件事情谁来做?我想肯定有很多人在思考。

    欢迎交流

    欢迎关注

    本文来自微信公众号“智能涌现”,作者:邓咏仪,36氪经授权发布。



沪ICP备19023445号-2号
友情链接