当GPT-4被问到在GPU(图形处理单元)上和在ASIC(专用集成电路)上运行,哪个会更高效时,它答道:「如果我使用专门为AI任务设计的ASIC,我可能会实现更快的性能和更高的效率。」
在训练大模型数据出现可预见枯竭的当下,ASIC逐渐进入人们视野,注重研发ASIC芯片的博通(Broadcom)乘风而起。上周五晚,美股市场出现买博通、卖英伟达(NVIDIA)的场景——博通股价大涨超24%,创下历史最高当日涨幅记录,成为继英伟达和台积电后,第三家市值突破一万亿美元的半导体公司。
据雷峰网了解,目前博通的市盈率(P/E Ratio)已高于英伟达:按12月17日收盘价,博通的市盈率为184.79,而英伟达的市盈率为51.54。这似乎也表明,投资者们更看好博通的未来。
与注重研发通用芯片GPU的英伟达不同,博通更专注于ASIC定制化芯片。这类能耗较低、专为特定任务设计的芯片,对企业的研发技术水平要求很高、制作流程也耗时较长。也因此,有行业人士指出「这些芯片并不适合所有人」。不过,在AI大模型推理被提上日程的今天,GPU的性价比也逐渐被打上问号。或许,博通和英伟达的未来发展,不仅是两家科技公司的商业策略相较,也是GPU和ASIC两种芯片应用场景的一较高下。
图源:greenmossinv
博通的崛起:天时地利人和
今年12月,博通发布的最新一期第四财季财报显示,其全年AI相关业务收入同比实现增长220%。
博通CEO Hock Tan指,这得益于公司旗下AI XPU类芯片和以太网产品组合的需求支撑。他续透露,目前博通已有三家超大规模客户制定自己的多代AI XPU路线图,预计到2027年,每个客户在单一网络架构中将部署100万个XPU集群;同时,博通还在为两家新的超大规模客户设计开发相应下一代AI XPU产品,预计将在2025年下半年实现对3nm XPU的大规模出货。
根据业界分析,博通ASIC芯片的大客户主要包括谷歌、Meta。也有传言称,字节跳动和Open AI已与博通合作开发芯片。近日也有消息透露,苹果似乎正与博通合作计划开发AI服务器芯片。
据了解,博通为这些知名科技公司开发用于AI、通用数据处理等用途的芯片,一般是与其客户确定工作的负载需求后,跟合作伙伴确定芯片的规格,利用博通在硅片设计方面的专业知识,开发其主要存在差异化因素的关键方面,如处理单元架构。之后,博通在硅片中实现该架构,并配备平台特定的IP、缓存、芯片间互联接口。
博通的AI计算ASIC还利用共封装光学器件来提高能源效率和可扩展性,减少系统延迟,满足更复杂的计算要求。与传统的光学器件相比,其功耗可节省高达30%。
在今年12月初,博通宣布推出其3.5D eXtreme Dimension系统级封装 (XDSiP™) 平台技术,使消费级AI客户能够开发下一代定制加速器 (XPU)和计算ASIC。3.5D XDSiP在一个封装设备中集成了超过6000平方毫米的硅片,和多达12个高带宽内存 (HBM) 堆栈,可实现大规模AI的高效、低功耗计算。博通推出的这款业界首个Face-to-Face (F2F) 3.5D XPU,是一个重要的里程碑。
训练生成式AI模型所需的巨大算力依赖于10万个到100万个XPU的大规模集群。这些XPU需要越来越复杂的计算、内存和I/O功能集成,同时最大限度地降低功耗和成本。在过去十年中,2.5D集成——涉及在中介层上集成多个芯片(面积高达250mm²)和HBM模块(高达 8 HBM)——已被证明对XPU的开发很有价值。然而,随着渐趋复杂的LLM(大型语言模型)推出,它们的训练需要3D硅堆叠,以达到更好的尺寸、功率和成本。因此,将3D硅堆叠与2.5D封装相结合的3.5D集成,有望成为未来十年下一代XPU的首选技术。
与F2B(正面对背面)相比,博通的3.5D XDSiP平台在互连密度和功率效率方面取得了显著的改进,其堆叠芯片之间的信号密度提高了7倍。并且,通过使用3D HCB而非平面芯片到芯片PHY,可将芯片到芯片接口的功耗降低10倍。在此基础上,这一技术还可最大限度地减少3D堆栈内计算、内存和I/O组件之间的延迟;并实现更小的中介层和封装尺寸,节省成本并改善封装翘曲。
成立于1991年的老博通,最初是一家专注于宽带通信解决方案的小型半导体公司,产品范围涵盖有线和无线通信、企业存储和数据中心解决方案。该公司在2016年被Avago Technologies收购后采用博通(Broadcom)这个名字。如今,博通为当下最关键的技术提供支持,包括5G网络、人工智能和物联网 (IoT)。
博通在人工智能市场的成功很大程度上归功于其定制硅片解决方案和高速网络产品。它已成为主要科技巨头的人工智能芯片的主要供应商,其XPU技术在超大规模客户中越来越受欢迎。博通还指出,芯片市场正从以CPU为中心转向以连接为中心,而后者正是博通的专长。Piper Sandler分析师Harsh Kumar也看好博通:「我们继续认为博通是最好的AI公司(不包括英伟达),因为它在定制ASIC业务中占据强势地位,并且拥有强大的软件产品组合」。
在AI革命热潮下,博通的多管齐下战略,包括投入资金进行收购、提供定制芯片和扩展到软件业务,使其成为强大的竞争对手。
与此同时,随着AI大模型训练数据渐趋枯竭,AI领域的任务从训练端逐步转向推理端。有行业人士指,这一转型或意味着人们对芯片的计算精度要求相对可能降低,但对计算速度、能效成本等要求提高,而能以较低功耗实现快速推理计算的ASIC正好满足这一需求。对此,博通CEO Hock Tan预测:未来50%的AI算力都会是ASIC提供。他更放言:2027年市场对定制AI芯片ASIC的需求规模将达600亿至900亿美元。
博通在AI领域的大胆举措,为AI芯片市场的史诗级对决埋下伏笔。
X+ASIC vs 英伟达软硬件 「护城河」被攻破了吗
在英伟达占据AI芯片主要市场份额的情况下,大型科技公司都希望能减少对其依赖,博通也将自己定为替代方案。在此之下蓬勃生长的博通,甚至让英伟达CEO黄仁勋感到威胁。他承认:「博通(和其他初创公司)的复苏让英伟达的规划者感到紧张。」
与长期主导行业的英伟达GPU不同,博通在市场上的差异化在于它正在为全球顶级科技公司制造非常昂贵的定制AI芯片,承诺帮助他们将速度提高20%至30%,并将功耗降低25%。ASIC为拥有大量稳定AI工作负载的科技巨头,提供巨大的商机,可以帮助企业在资本支出和功耗方面节省大量成本,这使其成为更具成本效益的选择。
不过,这些芯片对企业的研发技术水平要求较高,且需要大量初始资本投资,制作流程也较长。据悉,做一款ASIC芯片,需经过代码设计、综合、后端等复杂的设计流程,再经几个月生产加工以及封装测试,才能拿到芯片来搭建系统。有分析师指出:「你必须是谷歌、Meta、微软或甲骨文这样的公司才能使用这些芯片,这些芯片并不适合所有人。」
因此,英伟达在市场的领导地位尚未被削弱。
英伟达竖起的坚固壁垒,靠的不仅是其通用芯片,还有平台衍生出的庞大软件生态。英伟达公认的强大「护城河」CUDA,作为一种专门用于加速GPU运算的专利软件技术,能让工程师省下大量撰写低阶语法的时间,直接使用诸如C++或Java等高阶语法,来编写应用于通用GPU上的演算法,解决平行运算中复杂的问题。这一软件配以英伟达的GPU和网络传输NVLINK——后者是一种高速、低延迟的互联技术——三张王牌合力,强大的软硬件协同完善的生态,巩固其广泛的客户群体。
但业界对CUDA的过于依赖,已让不少主打AI的公司开始警惕。而做网络出身的博通,强大的技术积累能为客户提供高性能网络传输;同时,客户在配备博通AI芯片的前提下,可以继续使用自己公司的算法、系统和模型,无需考虑芯片是否适应英伟达的CUDA——这让它逐渐成为一个有力的选项。
在历史上,英伟达曾面对诸多强大的对手,如Google、微软、META等巨头均有涉及制造GPU,但因为产能、CUDA等限制,这些公司都无法与英伟达竞争;但现在在ASIC芯片这一赛道上,由于场景在上述巨头手上,从而绕开了对英伟达生态体系的依赖。
换言之,博通与英伟达之前的对手如AMD、Intel不同,后者更多是在技术上与英伟达展开竞争,但博通则是通过与其他对AI算力有需求的商业巨头的合作,当Google、Amazon等自己设计芯片后,交由博通完成后续的制造,在商业模式上撼动英伟达的领导者地位。
这种 X+ASIC vs 英伟达的模式,也正是让英伟达感到紧张的原因。
在半导体芯片的历史上,类似的模式最成功的案例是ARM,不同的是,ARM采取的是IP授权模式,它不向市场出售成品芯片,而是靠将其研发的指令集架构和处理器IP而获利。凭借这一模式,ARM在移动互联网时代战胜了强大的Intel,拿下了今天移动终端的大市场。
不可否认的是,ASIC是专门为特定应用开发的,灵活性较差,且开发成本高昂耗时;而GPU是可编程的,灵活性高,可用于各种任务,可快速实施,拥有成熟的软件和硬件基础设施,包括广泛使用的编程语言和库。即使在可扩展性方面,GPU迄今为止也得分颇高。英伟达目前是最受欢迎的AI芯片制造商之一不足为奇。
但是,这样的局面还能持续多久?
达到的极限GPU 能否交给ASIC接力
目前,主流AI芯片主要包含以GPU为代表的通用芯片、ASIC定制化为代表的专用芯片及FPGA为代表的半定制化芯片。当谈论大语言模型及训练集群或一般的人工智能时,GPU仍是默认选择——专为图形处理而生的GPU,并行处理能力出色,符合AI计算场景的需求,如处理大量数据集和加快模型训练时间等。英伟达的GPU仍被用于为最强大AI模型的训练和运行提供动力。
然而,尽管在训练场景中效率很高,GPU在扩展AI应用以进行广泛使用方面,却仍面临着重大的缺点。在成本和能源上,它是一种昂贵的选择。雷峰网了解到,GPU设计侧重于64位元素来处理广泛的计算任务,但在实时AI工作负载中,放弃64位组件可以将芯片尺寸和能源需求减少多达三分之一,同时仍能满足大多数AI处理需求。
随着AI走向推理,特别是处于必须在靠近源头的地方处理数据的边缘环境时,与GPU相关的高成本和功耗将变得越来越难以承受。GPU或已达到极限。
相反,专用于AI的ASIC现在为特定推理任务提供了更具成本效益和更强大的替代方案。进行推理更强调的是适合边缘部署的可扩展、节能的硬件解决方案——边缘AI设备在现场处理数据,而非将其传输到中央数据中心,因此,它们会受益于轻量级、专用的芯片。
除了博通,另一家相对年轻的ASIC制造商Etched研发出了世界上第一款Transformer ASIC 「Sohu」。他们对未来的信心不仅在产品上,还在ASIC的发展势头上——
过去几年内,AI模型已变得如此智能,甚至比人类更好地执行标准化测试,这得益于它们获得越来越多的计算能力。然而,数据中心的扩展并非无限,Etched指出:「再扩大1000倍将是昂贵的,下一代数据中心的成本将超过一个小国的GDP。按照目前的速度,我们的硬件、电网和钱包都跟不上」
「如果模型的训练成本超过10亿美元,推理成本超过100亿美元,那么专用芯片是不可避免的。在这种规模下,1%的改进就足以证明一个价值5000万至1亿美元的专用芯片项目是合理的」,Etched说道。
此外,在另一个领域——挖矿,ASIC和GPU也各有所长。ASIC作为定制专用芯片,在可靠性、保密性、算力、能效上,都比通用芯片更强,相较于GPU和CPU,在挖矿时效率也会更高。据统计,ASIC计算哈希(Hashes)的速度比GPU和CPU快10万倍,一台ASIC矿机可以提供约3000美元的高端哈希算力。
不过,由于ASIC是为开采特定货币而制造的专用集成电路,因此在应对加密货币挖矿业务或挖矿难度的变化方面,则缺乏灵活性。虽然ASIC矿机效率高、盈利能力强,但零售矿工和刚进入挖矿行业的个人,或会对ASIC矿机的高昂起始成本望而却步。
相较而言,GPU由于其多功能性,能挖掘各种加密货币,矿工可以在不同的加密货币之间切换,以应对网络难度和挖矿操作的变化。但GPU能耗高,经济性较差,且需要大量显卡和辅助冷却设备,GPU设备也需要更大的空间,这对于空间有限的矿工可能会成为问题。
不可否认的是,GPU将继续在人工智能训练中发挥关键作用,但由于其成本和能源效率限制,行业向ASIC的转变也已出现。未来GPU是否依然能占据大量的市场份额?ASIC漫长的开发周期和初始成本,又能否满足日新月异的AI时代下用户的需求?在对AI大模型的发展由训练转向推理的当下,一切悬而未决。
参考资料:
https://www.cnbc.com/2024/12/14/broadcoms-long-path-to-the-trillion-dollar-club-and-trumps-role.html
https://www.investing.com/news/swot-analysis/broadcoms-swot-analysis-ai-chip-leaders-stock-poised-for-growth-93CH-3775161
https://www.tomshardware.com/tech-industry/artificial-intelligence/ai-gpu-clusters-with-one-million-gpus-are-planned-for-2027-broadcom-says-three-ai-supercomputers-are-in-the-works
https://finance.yahoo.com/news/nvidia-broadcom-top-analyst-picks-141957599.html
https://www.artificialintelligence-news.com/news/broadcom-ai-surge-challenges-nvidia-dominance/
https://theafricalogistics.com/money/broadcoms-journey-to-the-1-trillion-club-a-semiconductor-success-story/
https://www.bitdeer.com/learn/asic-vs-gpu-what-are-the-main-differences-to-consider
https://www.all-about-industries.com/asics-versus-gpus-does-the-ai-future-not-lie-in-nvidias-hands-a-616108ac6928e3d542c757192c7c26e7/
https://awavesemi.com/is-a-gpu-asic-or-chiplet-based-soc-better-for-ai-as-we-switch-from-training-to-inference/