幽默:每个工程师都应该知道的可靠性算术

21-08-20 banq

一个服务要在 99.99999% 的时间里一直都处于在线状态,它每年最多只能宕机 3 秒。不幸的是,即使对于最有经验的现场可靠性工程团队来说,实现这一里程碑也是一项艰巨的任务。

正常运行时间    停机时间(每年)
99.00000%      3d 15h 39m
99.90000%      8h 45m 56s
99.99000%      52m 35s
99.99900%      5m 15s
99.99990%      31秒
99.99999%      3s

添加一个额外的“9”可能在持续时间上是线性的,但在成本上是指数级的。

在过去的 90 天里,Stripe 的 API 的正常运行时间为 99.999%,即五个 9。这是许多公司的黄金标准。服务级别协议更有可能按季度或滚动计算停机时间,而不是按年计算。像这样计算它会给你更多的计算余地,但幅度保持不变。有些甚至会从停机时间计算中删除“计划维护”。

1
猜你喜欢