一个服务要在 99.99999% 的时间里一直都处于在线状态,它每年最多只能宕机 3 秒。不幸的是,即使对于最有经验的现场可靠性工程团队来说,实现这一里程碑也是一项艰巨的任务。
正常运行时间 停机时间(每年) 99.00000% 3d 15h 39m 99.90000% 8h 45m 56s 99.99000% 52m 35s 99.99900% 5m 15s 99.99990% 31秒 99.99999% 3s |
添加一个额外的“9”可能在持续时间上是线性的,但在成本上是指数级的。 在过去的 90 天里,Stripe 的 API 的正常运行时间为 99.999%,即五个 9。这是许多公司的黄金标准。服务级别协议更有可能按季度或滚动计算停机时间,而不是按年计算。像这样计算它会给你更多的计算余地,但幅度保持不变。有些甚至会从停机时间计算中删除“计划维护”。