IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    Weekly Issue 2023-04-09

    Yiran\'s Blog发表于 2023-04-09 00:00:00
    love 0
    文章 链接到标题 技术 链接到标题 Read Every Single Error | Pulumi Blog 阅读每一条错误日志,人力是有限的,如果不能持续保持错误率的提高,那么随着 API 调用的增加,注定 Oncall 精力是不够的:(API Call Volume) * (Error Rate) * (Time to Triage an Error) < On-Call Attention 。SRE 模型和错误预算是高级时尚,而跳过步骤直接进入高级阶段并不总是有益的。相反,最好使用合适规模的工具和流程。 Sure you can hire and split systems out into separate on-call rotations to increase capacity, but our goal is to scale exponentially with respect to humans, not linearly! 引用推友的话: 最核心就是有人盯着这个事情,我们内部 sentry alert 数量从去年每分钟 300 多,今年变成 20 多,就是每周一把异常报错最多的 top5 项目拉出来,让项目负责的工程师看看具体是怎么回事。


沪ICP备19023445号-2号
友情链接