文章 链接到标题 技术 链接到标题 Open source forkers stick an OpenBao in the oven • The Register
[[hashicorp]] license 变更引发的 fork 运动还在持续,好奇这些项目的最终走向。
[[hashicorp]] 上周五股价跌了 16%,关联阅读:MSN
从滴滴的故障中我们能学到什么
[[KubeBlocks]] CEO 的文章:
控制规模,用多个小规模 K8s 集群的联邦代替一个大 K8s 避免单点,一个 K8s 集群也应该被视作一个单点 拥抱重启,把重启和迁移视作常态 数据面的可用性和控制面要解耦 “Human error” means they don’t understand how the system worked – Surfing Complexity
作者认为”人为错误“不存在,真正的原因是系统中的防御机制失效导致的系统故障。可靠的系统具有容错能力,通过演化和隐性的机制来抵御人们日常犯错的情况。当有人将故障归因于"人为错误"时,实际上是因为他们没有看到系统中的这些防御机制,也就意味着他们不了解系统是如何保持正常运行的。
但是具体应该呈现什么错误,如何解释那些错误还是分场合的。
程序的 Metrics 优化——Prometheus 文档缺失的一章 | 卡瓦邦噶!
如何“正确”的暴露 exporter metrics:
label 必须可以枚举 适当增加针对性的 metrics 可以减少查询压力 使用 recording rule 定期聚合查询,多级聚合 使用 Stream aggregation 在采集 metrics 时进行聚合,需要注意聚合函数的使用 WHAT IS 10GBIT LINE RATE?