文章 链接到标题 技术 链接到标题 https://blog.cloudflare.com/major-data-center-power-failure-again-cloudflare-code-orange-tested
Cloudflare 行动力真强。
当遇到了一个小概率事件,很多人会默认觉得这个事件触发概率太低了,不会立即的根据这个小概率事件去引入实际动作,可能先会加入 Todo List 中,然后排期、改进、上线。
Cloudflare 在发生故障之后,将其置为橙色预警,并拉着团队针对这次故障进行改进,是最高优先级任务。结果 5 个月之后,再次发生了相同的数据中心停电事故,这次 Cloudflare 没有触发大规模的业务下线。
The UX of UUIDs | Unkey
关于 [[UUID]] 的设计:
易于复制(删掉 - 和 _ ) 增加标识前缀 更高效的编码(base 58) pprof - 在现网场景怎么用 - 轩脉刃 - 博客园
[[Golang]] pprof 生产环境调试速查。
goroutine 泄漏 curl -o goroutine.log localhost:6060/debug/pprof/goroutine?debug=1 通过 debug=1 来找到占用 goroutine 最多的栈,然后通过 debug=2 来查看 goroutine 启动多久,找到具体的函数 curl -o goroutine.log localhost:11014/debug/pprof/goroutine; go tool pprof goroutine.log 有 golang 开发环境,直接使用 pprof 工具, top 100 查看 flat 代表我这个函数自己占用的资源(这里就是 goroutine 数) sum 则代表我这个函数和调用我的函数占用的资源(这里就是 gorourine 数) cum 则代表我这个函数和我调用的函数占用的资源(这里就是 gouroutine 数) 找到 cum 占比最大的函数,这里一般我们都会查找非系统调用函数,(因为系统调用函数不大可能有问题),那么我们就知道我们的哪个应用函数存在 goroutine 泄漏。 CPU 问题 curl -o profile.