本文永久链接 – https://tonybai.com/2025/05/19/shardedvalue-per-cpu-proposal
大家好,我是Tony Bai。
在追求极致性能的道路上,Go 语言凭借其简洁的并发模型和高效的调度器,赢得了众多开发者的青睐。然而,随着现代服务器 CPU核心数量的不断攀升,一些我们曾经习以为常的“快速”操作,在高并发、多核环境下,也逐渐显露出其性能瓶颈。其中,原子操作 (atomic operations) 的扩展性问题,以及标准库中一些依赖原子操作的并发原语(如 sync.RWMutex)的性能表现,成为了社区热议的焦点。
最近,fasthttp 的作者及 VictoriaMetrics 数据库的联合创始人 Aliaksandr Valiakin (valyala) 在 X.com 上的一番“叹息”,更是将原子计数器的扩展性问题推向了前台:
Valyala 指出:“基于原子操作的计数器更新性能在多 CPU 核心上无法扩展,因为每个 CPU 核心在增量操作期间都需要从慢速内存中原子加载实际的计数器值。因此,实际性能受限于内存延迟(约 15ns,即每秒 6 千万次增量)。通过使用可缓存于 CPU L1 缓存的 per-CPU 计数器,可以将单 CPU 核心性能提升至每秒数十亿次增量。遗憾的是,Go 语言本身并未提供高效处理 per-CPU 数据的函数。”
这番话点出了一个残酷的现实:即使是看似轻量级的原子操作,在多核“混战”中也可能成为性能的阿喀琉斯之踵。那么,这背后的深层原因是什么?Go 社区又在如何探索解决之道呢?今天,我们就来深入剖析这个问题,并解读 Go 项目 issue 中几个重要的相关提案,同时看看社区是如何先行一步尝试解决这类问题的。
要理解原子操作的瓶颈,我们需要潜入到 CPU 缓存的微观世界。现代多核 CPU 为了加速内存访问,都配备了多级缓存(L1, L2, L3)。当多个核心同时读写同一块内存区域时,就需要缓存一致性协议 (Cache Coherence Protocols)(如 MESI,Modify-Exclusive-Shared-Invalid)来确保数据的一致性。
当我们对一个共享变量(即使是原子变量)进行写操作时,例如 atomic.AddInt64,会发生什么?
在高并发场景下,如果多个核心频繁地对同一个缓存行中的原子变量进行写操作,就会导致:
这就是所谓的真共享 (True Sharing) 争用。即使原子操作本身在单个核心上执行得非常快,这种跨核心的缓存同步开销也会让其整体性能急剧下降。
这个问题的典型体现之一,便是 Go 标准库中的 sync.RWMutex。正如 github.com/jonhoo/drwmutex 项目在其 README 中指出的:“Go 默认的 sync.RWMutex 在多核下扩展性不佳,因为所有读操作者在尝试原子性地增加同一个内存位置(用于读者计数)时会产生争用。” 对于读多写少的场景,本应高效的读锁操作,却因为内部共享计数器的原子更新而受到了性能限制。
面对标准库 sync.RWMutex 在多核环境下的扩展性瓶颈,社区早已开始了积极的探索。一个显著的例子便是 jonhoo/drwmutex,一个 n 路分片读写锁(Distributed Read-Write Mutex)的实现,也被称为“大读者”锁。
其核心思想非常直观:为每个 CPU 核心提供其自己的 RWMutex 实例。读者只需要获取其核心本地的读锁,而写者则必须按顺序获取所有核心上的锁。 这种设计通过将读操作的争用分散到各个核心,从而显著提升了读多写少场景下的并发性能。
jonhoo/drwmutex 的实现也揭示了构建这类 per-CPU 优化方案的一些关键技术点和挑战:
jonhoo/drwmutex 的实践不仅提供了一个解决 sync.RWMutex 性能问题的有效方案,也为后续 Go 官方和社区在 per-CPU 数据结构方面的探索提供了宝贵的经验和参照。
在社区积极探索的同时,Go 核心团队也早已关注到这类问题。一个重要的早期官方提案便是由 Austin Clements 在 2017 年提出的 sync.ShardedValue (issue #18802)。
sync.ShardedValue 的核心思想与 jonhoo/drwmutex 有异曲同工之妙:提供一种机制来创建和使用分片值,将一个逻辑上的共享值分散到多个独立的“分片”中,每个分片与一个 CPU 核心或更准确地说是 Go 调度器中的 P (Processor) 相关联。 这样,每个 P 上的 goroutine 优先访问其本地分片,从而大大减少对单一共享内存位置的争用。
该提案围绕 Get()、Put() 和 Do() 等核心 API 进行了深入讨论,涉及了诸多设计维度,例如 Get/Put 的阻塞性、溢出处理、Do 操作的一致性等。尽管因难以就“最重要的问题达成共识”而被搁置,但 sync.ShardedValue 提案为后续的探索奠定了重要的基础,并清晰地指明了通过“分片”来提升多核扩展性的方向。
近期,valyala 基于其在 fasthttp 和 VictoriaMetrics 等高性能项目中的实践经验,提出了两个更聚焦、API 更简洁的提案,试图从特定场景切入,解决 per-CPU/per-P/per-M 数据的高效访问问题。
1. sync.PLocalCache (issue #69229): Per-P 对象缓存
2. sync.MLocal[T any] (issue #73667): Per-M (OS 线程) 泛型存储
无论是社区的 jonhoo/drwmutex 实践,还是官方及 valyala 的提案,它们的核心目标都是一致的:通过数据的分片或本地化,最大限度地减少多核间的共享内存争用,从而提升高并发应用在多核处理器上的性能和可伸缩性。
然而,它们在具体实现、API 设计的通用性、易用性以及针对的场景上有所不同:
这些探索过程也充满了 Go 社区对技术细节的极致追求和严谨思辨,例如关于命名(”sharding” vs “perCPU” vs “SplitValue”)、GOMAXPROCS 动态变化的影响、与 GC 的交互、API 语义的精确性(如 mknyszek 提出的包含 Merge 方法的 ShardedValue API 及其多种语义可能)以及泛型的应用等。
原子操作的瓶颈、标准库并发原语的局限,以及社区和官方对 per-CPU/P/M 存储方案的持续探索,清晰地表明了 Go 语言在追求极致多核扩展性方面仍有提升空间。解决这类底层并发原语的性能问题,对于 Go 在高性能服务器、大规模分布式系统、数据库、监控系统等领域的持续领先至关重要。
未来,我们或许会看到:
从 valyala 对原子操作性能的“叹息”,到 jonhoo/drwmutex 的巧妙实践,再到 Go 社区围绕 sync.ShardedValue、sync.PLocalCache、sync.MLocal 等提案的深入探讨,我们看到了 Go 语言在追求极致性能道路上永不停歇的脚步。这不仅仅是关于几个新的 API,更是关于 Go 如何在多核时代继续保持其并发优势和工程效率的战略思考。
作为 Gopher,关注这些讨论和提案的进展,理解其背后的设计哲学和技术挑战,不仅能让我们更深刻地认识 Go 语言,也能启发我们在自己的高性能项目中进行类似的性能优化思考和实践。
让我们共同期待 Go 在多核扩展性方面能迈出更坚实的步伐,为构建更高性能的未来系统提供更强大的动力!
聊一聊,也帮个忙:
欢迎在评论区留下你的经验、思考和问题。如果你觉得这篇文章对你有所启发,也请转发给你身边的 Gopher 朋友们,让更多人参与到这场关于 Go 性能未来的讨论中来!
商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求,请扫描下方公众号二维码,与我私信联系。
© 2025, bigwhite. 版权所有.