文章 链接到标题 技术 链接到标题 Incident Review for Site-wide Outage for GitLab.com - Stale Terraform Pipeline #15997 (#15999) · Issues · GitLab.com / GitLab Infrastructure Team / production · GitLab
[[Gitlab]] 对[[Terraform]] 使用不当导致故障的[[事故分析]]。在变更请求过程中,触发了一个过期的Terraform流水线。这导致一个过时的Terraform计划被应用到生产环境。同样的操作之前多次执行都没有问题。导致这次故障的原因是应用变更到生产环境有较长延迟(约3周)。用于资源重建的已知良好的流水线变得过时,并且由于最近的更改而导致配置漂移。
[[Atlantis]] 的存在是有道理的,它在前面拦一道,可以有效避免一些平时不容易注意到,但是一但发生会造成 S0 级别事故的 TF 灾难。 对抗人的不精确性的简单办法其实就是增加流程的安全性。 from: @kivinsae
额外的故事: [[Gitlab]] 因为自身故障,导致团队协作无法使用 [[Gitlab]],只能去使用 Google Doc。
A Failed SaaS Postmortem · Matt Layman
作者在尝试做一个项目时,使用了自己不那么熟悉的技术栈,并且在软件依赖的更新上花费了大量的时间,又忽略了最终用户的感受,导致结果是不好的。在 MVP 阶段,应该保持技术栈简单,使用自己最熟悉的技术,来达到用户的期望。
https://www.redpoint.com/infrared/100/
[[Redpoint]] 选出的100 家做基础设施的[[公司]]。按类别划分:安全、数据 & AI、DevOps。
Golang 中预分配 slice 内存对性能的影响| Oilbeater 的自习室