AI 1.0 时代,以卷积神经网络为代表的深度学习算法的突破,拉开了感知智能时代序幕,这使得计算机视觉技术能够脱离学术科研界,落到产业做商业化尝试,「智慧城市」就是在这样的土壤上生长起来的业务。
过去十年的时间里,智慧城市业务在所有 AI 相关大类业务中首屈一指。两年前 ChatGPT 横空出世,大语言模型一时风头无两,智慧城市等传统业务在AI 2.0时代新技术、新场景、新趋势的映衬下,似乎缓缓淡出聚光灯的焦点。
但实则,智慧城市是一个兼具深度与广度的命题。在区域广泛且包含复杂主体的城市中, AI 技术需要在浩瀚信息中做出基础的感知与筛选,应对城市愈加丰富场景中细碎的长尾问题,传统的计算机视觉技术并不能完全满足城市智能化需求。大语言模型的变革、视觉模型的进步、多模态模型的探索,恰恰为智慧城市的发展提供了又一新技术支撑点,在新格局之下 ,城市治理、交通、园区、企业智能化等各个To B 的AI 业务都迎来了新的机遇。
AI 2.0 时代,即使行业更多地将灼热目光投射在流量潜力惊人的 C 端应用上,但这并不意味着 B 端市场无人问津。相反, To B 业务在新技术的加持下迎来了新的增长可能性。正如商汤科技副总裁、智慧城市与商业事业群总裁张果琲所言,相较于「性感」、爆发力强的 C 端应用,B 端业务更能在积累的行业数据和经验基础上做深做厚,在长久性、延续性方面更有优势。
面对大模型技术浪潮,商汤基于十年视觉技术的深厚积累,加入大模型能力,针对智慧城市领域新需求进行重新适配,推出了商汤方舟多模态新智平台(SenseFoundry VL),使得已经成熟化、规模化的传统 AI 业务如虎添翼,实现更强的商业转化。商汤成立十年间,历经技术变革,行业洗牌。支撑商汤起家的视觉技术与传统 AI 业务,在穿越十年技术周期后,也在积极探寻着下一个十年的应变之路。
旧瓶与新酒,智慧城市与大模型
AI 2.0时代,延续了近十年的传统智慧城市业务模式发生些许变化。「过去那些因为泛化成本过高而放弃掉的项目、做不出来的业务,现在能够在同样的预算条件下做出来了,这是通用视觉模型给智慧城市业务带来的关键差别所在。」张果琲如是理解道。
数量庞大的长尾场景,极高的定制化需求,导致每一个项目都要花大价钱大力气训练出特定的小模型,否则无法满足客户需求,这样的模式导致一批人工智能企业被迫做成了「劳动密集型」公司——这是上一代技术条件下无法避免的内生性问题,也是弊端。
AI 1.0 时代中,智慧城市平台更类似于一个「感知网」,遍布于城市各角落的数据收集设备是「传感器」,自动化采集原本需要人为收集的数据,例如实时发现火灾、占道经营、垃圾溢出等状况。虽然也为城市治理带来了可观可喜的变化,但彼时的「城市大脑」主要通过专家规定的范式、人为设计的逻辑驱动决策,是一个「没有成熟的大脑」,不足以应对城市中多样复杂的情况。
而大模型本身所具备的泛化能力,很大程度上缓解 AI 1.0 时代的痛点,节省了原来高昂的定制化预算。张果琲透露,具备大模型能力的智慧城市业务只需要花原来十分之一甚至更少的成本就可以完成部署,成本甚至能下降一个数量级。
商汤就在方舟城市开放平台基础上,将多年积累的视觉能力和大模型能力相结合,迭代出了方舟多模态新智平台(SenseFoundry VL)。
AI 2.0 相对于 AI 1.0 时代的技术革新,首先体现在大模型的海量知识和推理思考能力上,这给原有的方舟城市平台单纯的视觉能力带来极大加成,不仅能够准确地识别城市中实时发生的状况,更能做出认知判断。比如,传统的智慧城市大脑只能识别火情及烟雾,无法判断是火灾还是烟花,而方舟多模态新智平台则能做出准确的认知。
其次,大模型对智慧城市业务的提升也体现在语言和视觉能力的互动上,即能够整合多模态能力。从前,如果要在城市场景中找到救护车,需要先把大量救护车图片喂给算法,教会它什么是救护车,才能成功检测到目标对象,而现在只需要用自然语言的方式下达指令,就能了解到城市中救护车的数量及位置。
除此之外,大模型的泛化能力能够处理大规模数据,这天然适配城市这个具备海量数据的场景,提高信息处理效率。在以往,暴雨过后街道积水,可能有成百上千的市民同时致电城市12345公共服务便民热线反馈问题,大量接线员重复地将问题分发给对应的城市管理部门,一方面占用热线资源,另一方面城市管理部门需要花费大量时间精力处理信息。
如今,大模型可以对来电信息进行信息理解,从而分类分拨,减少接线员及执行部门的重复工作。「方舟多模态新智平台」助力12345工单的分类分拨速度提升至原先的10倍以上,在一个月内完成超过30万次的分拨诉求,单个分拨员原本一个月的工作量现在仅需一天即可完成。
可以说,「方舟多模态新智平台」所实现的语言和视觉结合,不是做简单的「 1 + 1」加法 ,而是做倍数放大的乘法,多维度升级智慧水平。目前,这一平台的提升系统地体现在三方面:
一是「需求即指令」。用户可直接自然语言提问输入查询,大模型会理解用户意图并给出相应的答案。例如,在交通运输场景,交通部门或物流企业可通过构建物流运力分析智能体,提取车辆位置、车流状况、天气等相应信息提取派单信息,最终制定更科学合理的物流车辆运输时空图谱。
二是「对话即检索」。让用户获得“所说即所得”、“所问即所应”的体验。例如,在剧烈台风后,城市管理者可通过对话即刻检索出树木倒伏、电线杆倾倒等各类危害交通安全的场景,从而进行快速响应处理。
三是「提示即提优」。无需海量定制研发投入,只需少量正负样例数据和提示词调整,即可一键生成通用模型和特定模型,部分复杂城市事件的识别准确率高达90%以上,真正实现模型生产和调优的使用易、落地快、成本低。
方舟城市平台的迭代升级,使得商汤智慧城市业务的技术驱动核心不再是基于人所设定规则的「机械」智能,而是「听得懂、会交流、擅优化」的多模态平台。
「1+X」战略下,厚积薄发的智慧城市
过去两年的时间中,在新旧 AI 技术交替的节点上,商汤作为典型的上一代 AI 企业代表,没有在跌宕的技术浪潮前迟疑,而是即刻起身,快速转型。
2023 年,面对生成式 AI 崛起的趋势,商汤进行了一次业务调整,确立了传统AI、生成式 AI 和智能汽车作为新的三大业务板块。这一转变意味着商汤科技正在从以智慧城市业务为主要增长点的 AI 1.0 时代,向以生成式 AI 技术为核心驱动力的 AI 2.0 时代转型。
2024 年 10 月,商汤科技再次进行战略重组,建立了新的 「1+X」的架构,其中「1」 代表集团核心业务,打造行业领先的AI云,实现大装置、基础模型和 AI 应用的无缝集成,在 CV 领域,打造通用视觉模型深耕各个应用场景;「X」 代表重组拆分的生态企业矩阵,包括智能汽车“绝影”、家庭机器人“元萝卜”、智慧医疗、智慧零售等。
在大装置、大模型、应用三位一体的格局中,应用部分的其中一个重要落地形式是将传统视觉和大模型结合。虽然以商汤为代表的AI公司在1.0时代,已经在城市板块做了大量的探索和试错,并将视觉技术落在了许多长尾场景,但加入大模型能力之后,业务增长空间再次得到激发。商汤在传统AI板块的看点不只是新技术趋势下的落地验证,还将为商汤加速实现营收,起到稳定现金流的关键作用。
过去十年,商汤智慧城市业务在商业化上经历了长期探索和验证。通过深入到智慧城市诸多场景,商汤快速探索到技术边界,并检验出技术在哪些场景中可以立即商业化,为客户带来长远价值。
基于这些行业认知,商汤有机会在大模型时代用更短、更直接的路径有效地实现盈利。目前,商汤的智慧城市业务主要有两条路:一是,在过去十年已经「摸透」的成熟场景中加入 AI 能力,更好地满足旧场景中的新需求,达到成本更低、商业化更健康的状态;二是,挖掘更多场景。在CV2.0时代,随着智能视觉的技术范式升级,智慧城市定义也将不仅仅被局限在原来少数的领域,将有机会渗透到更多更广泛的城市管理和商业业务中。
无论是哪条路,商汤都有明显优势。作为一家 To B 领域起家的公司,商汤通过方舟城市开放平台在智慧城市场景中累计支持了超200万路实时视频的智能分析,积累了海量的真实数据和行业知识。相较于在线上互联网中就能收集到的广泛数据,线下真实场景中的专业数据对多模态模型在垂类领域的能力有更快的提升。商汤也会用核心业务积累的技术和资源持续赋能智慧城市及商业业务的拓展。
另外,商汤在 AI 领域的判断眼光,不仅表现为大模型爆发后一系列的战略调整,更表现为爆发前商汤就抢滩算力基座。2019年,商汤即投资在上海建立智算中心,这就是之后「大装置」的基础。据披露,商汤大装置总算力规模已经达到了20000P,运营GPU数量达到54000张卡。算力的前瞻布局,让商汤的视觉模型有了稳定的后方。
结语
IDC今年发布的《2023中国人工智能软件市场份额》报告显示,在2023年,商汤科技市场份额25.1%,位居中国计算机视觉市场第一,并且超越第二、三名的总和。
必须要承认的是,商汤的传统 AI 板块依然领先。而背后的底气是商汤在 To B 领域深耕多年所积累的客户理解、行业认知,这也是商汤这类 AI 1.0 时代就杀出重围的企业在大模型时代的优势。
AI 2.0 发展至今,To B 业务与新技术的结合很有可能是AI公司们交出商业化答卷,实现技术普惠的一条康庄大道。显然,商汤的智慧城市业务正在低调但坚定地走在这条路上。
商汤并不担心近几年新涌现的大模型创业公司抢占 B 端市场。「首先,这个市场还足够大。其次,从一个初创公司成长到能够赢得 B 端客户信任的、能够高质量做交付的公司并不是一朝一夕的事,这需要一个一个客户去做、一个一个场景去落。」张果琲告诉雷峰网。
当下阶段,商汤智慧城市业务侧重的方向是把其中的感知数据和认知体系建立起来,让 AI 辅助人进行高质量的决策、执行。下一步,张果琲透露,商汤智慧城市的发展目标是,将争取让城市在没有人参与的情况下实现自闭环,所有感知、认知、决策、执行的过程都由城市平台完成。