文章 链接到标题 技术 链接到标题 Read Every Single Error | Pulumi Blog
阅读每一条错误日志,人力是有限的,如果不能持续保持错误率的提高,那么随着 API 调用的增加,注定 Oncall 精力是不够的:(API Call Volume) * (Error Rate) * (Time to Triage an Error) < On-Call Attention 。SRE 模型和错误预算是高级时尚,而跳过步骤直接进入高级阶段并不总是有益的。相反,最好使用合适规模的工具和流程。
Sure you can hire and split systems out into separate on-call rotations to increase capacity, but our goal is to scale exponentially with respect to humans, not linearly!
引用推友的话:
最核心就是有人盯着这个事情,我们内部 sentry alert 数量从去年每分钟 300 多,今年变成 20 多,就是每周一把异常报错最多的 top5 项目拉出来,让项目负责的工程师看看具体是怎么回事。