IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    开放创新,昇腾 CANN 再向深处

    思否编辑部发表于 2025-06-12 14:16:32
    love 0

    AI 领域有自己的速度。

    4 月 29 日凌晨 4 点,Qwen3 正式发布,并开源全部 8 款混合推理模型。发布仅 2 小时,Qwen3 模型在 GitHub 上的 Star 数已近 17k。 更有趣的是,开源 5 小时后,华为计算发文宣布实现 Qwen3 的 0Day 适配,即在 MindSpeed 和 MindIE 中开箱即用。这意味着,开发者可以第一时间零门槛使用最新的 AI 能力。

    这样软硬件闪电协同的背后,华为昇腾异构计算架构 CANN 的深度开放策略提供了核心支撑。

    能力解耦,技术优势的最后一公里

    据 IDC 预测,2026 年中国智能算力规模将达到 1460.3 EFLOPS,为 2024 年的两倍,AI 算力需求正经历指数级增长。这一增长不仅标志着 AI 技术从实验室走向实际应用的加速,也对异构计算架构提出了更高的要求。

    然而,传统 AI 开发在落地过程中面临的 “三座大山” 正在吞噬技术革命的红利。

    一是开发效率低下。算子开发门槛高,业务需求的响应时间也动辄数周,“创新诞生即过时” 成为常态。

    二是性能释放不足。当前 AI 算力资源普遍存在静态分配僵化与动态需求错配的矛盾,硬件能力常常因原子能力组合方式固化,导致有效性能输出遭遇供给瓶颈。

    三是生态协同缺失。随着计算需求的多样化,CPU、GPU、FPGA、ASIC 等不同架构计算单元被广泛应用,但多元计算架构因技术标准割裂及调度机制缺位,通常难以实现资源最优调配,造成算力限制与效率不足。

    当开发迟滞、性能折损、生态割裂锁死产业创新,铺向最后一公里的重点不再只是算力堆砌,而在能力解耦——这正是昇腾 CANN深度开放的战略原点。

    作为昇腾 AI 基础软硬件平台的核心,昇腾异构计算架构 CANN 自 2023 年宣布深度开放策略至今,已构建起覆盖全技术栈的开发者赋能体系,并成为中国开发者生态最活跃、技术迭代最迅猛的 AI 创新平台,在使能 AI 开发效率和性能方面始终保持业界前列。

    我们发现,昇腾 CANN 的进化始终锚定更深层的技术突破。从大模型爆发初期沉淀底层能力,到分层开放助力千行百业敏捷创新,再到扎根底层的技术创新,这条从能用到易用、好用的深度开放之路并不是一蹴而就的。

    深度开放,CANN 的三层解耦战略

    随着开发者的开发方式逐渐从上层软件走向底层硬件,昇腾 CANN 的开放深度和开放策略也持续演进,构建起了覆盖算子开发、系统调优到编译链优化的全场景赋能体系。

    过去,开发者往往受限于框架接口,难以直接干预硬件底层的精细调度。如今,得益于 CANN 深度开放,开发者既可以快速集成预置模块完成敏捷交付,也可以直接调用最底层资源,灵活组合原子功能实现极致性能调优。这意味着开发者已能够在性能与效率之间实现自由平衡。

    具体来看,针对不同技术层级的开发者,昇腾 CANN 推出了差异化开放策略。

    在算法创新层,昇腾 CANN 在 Gitee 社区开源了包括 FlashAttention、Matmul 在内的 260 多个高性能算子及10 余种 MESH/RING 通信算法的最佳实践代码库,并提供了 80 多个高阶 API ,开发者可基于业务场景直接调用预置算子库或自定义优化已有算子及通信策略,显著缩短开发周期。

    同时在系统优化层,昇腾 CANN 也向开发者开放了 190 多个 Runtime 底层接口,支持开发者像拼装乐高积木一样灵活组合原子级能力,充分释放昇腾硬件性能潜力。

    在编译生态层,通过开放毕昇编译器的 AscendNPU IR 接口,屏蔽硬件差异,底层硬件能力被高度抽象化,无感对接 Triton、FlagTree 等编程框架,开发者可直接使用 Python 语法编写高性能算子。

    全栈使能,核心突破加速产业创新

    计算架构的核心使命,在于打通硬件性能释放、软件高效运行与生态协同繁荣的技术闭环。除了分层开放带来的性能与效率的提升,昇腾 CANN 在计算、通信、内存三大维度也取得了核心技术的突破性进展。

    在计算加速层面,针对 MoE 大模型训练场景的"卡脖子"难题,昇腾 CANN 推出了超级算子 MLAPO,通过将数个小算子融合,对 Vector 与 Cube 计算单元的并行化改造,成功将 MLA 前处理耗时从行业平均 109us 压缩至 45us,在金融风控模型、广告推荐系统等业务实践中实现了 20% 以上端到端的性能提升,打破了 Transformer 架构的算力瓶颈。

    在通信加速层面,传统 RDMA 通信一次消息的传输需要三次同步,涉及到至少七次读写校验核算过程,严重影响通信效率。昇腾 CANN 打造的 NPUDirect 通信算法可实现一个消息一次同步,端到端通信耗时降低了 50%,大幅降低了推理时延。

    在内存优化层面,面对动态 shape 场景带来的内存碎片化挑战,昇腾 CANN 的多重地址映射技术能够自动拼接利用内存碎片,显著提升内存利用率。这项技术目前已在商品搜索、短视频推荐等业务场景中,成功将内存利用率提升 20% 以上,并实现了单卡并发请求量的行业级突破。

    实践证明,架构开放的深度决定了技术的高度。昇腾 CANN 通过算法、系统、编译三层深度解耦开放,赋予开发者直达硬件底层的能力,并以此为基础在计算、通信、内存三大核心领域实现单点性能的指数级提升,同时构建起"芯片级优化-系统级调度-集群级协同"的全栈能力,开启 AI 算力技术"原子级精准调优"的新纪元。


    时间永远站在行动者这边。六年来,昇腾 CANN 深度开放策略的推进,驱动着技术突破与生态繁荣相互成就。无论是华南理工大学团队利用全新发布的 CATLASS 算子模板库开发 Matmul 算子,将开发周期从传统 4 人周压缩至 2 人周,还是科大讯飞星火大模型借 NPUDirect 通信算法,使跨机通信时延骤降 90%,可以确定的是,越来越多的创新者正从中受益。

    如今,昇腾 CANN 算子认证开发者已突破 6000 人,携手互联网、运营商、金融等 30 余个领域伙伴联合开发核心算子超过260 个。此外,昇腾还获得了 Pytorch、vLLM 等主流社区的主动支持,一个根植于昇腾的开放 AI 大生态已蔚然成型。

    开放层级的下探,正在重构 AI 创新效率的基线。伴随模型迭代的急速演进与异构算力的协同瓶颈,解锁硬件潜能的焦点已无争议地转向底层能力开放的更深处。这不仅是效率跃升的技术路径,更是产业创新的核心范式。可以看到,当深度开放在算力底层扎下根系,创新应用的规模化落地浪潮已势不可挡。



沪ICP备19023445号-2号
友情链接