SLI 与 KPI


服务水平指标(SLI)与关键绩效指标(KPI)相同吗?

视情况而定!

它们有很多相似之处,但也有一些重要的细微差别,本文将深入探讨。

区分这两者真的很重要吗?嗯,这实际上取决于情况!!!如果语言的目的是为了交流思想,那么使用正确的词语会带来好处。

SLI 和 KPI 都由 Google 推广,尽管它们并非起源于 Google。SLI 和 KPI 都是指标,其中的“I”代表指标。这两个指标都旨在优化目标并支持数据驱动的决策。

但相似之处仅此而已。两者之间存在着根本差异,这种差异源于其目的,并扩展到范围、关注点、受众、行动,甚至公式。

有趣的是,KPI/OKR 和 SLI/SLO 是两个可以互相转换的系统,但有很多细微差别。

用法:
关键绩效指标在商业、销售、营销、产品、财务等领域有着广泛的应用。

KPI 涵盖各个领域,包括财务指标(例如每位客户的收入)、产品指标(例如每月活跃用户)、客户满意度、员工生产力、运营效率(例如生产的无缺陷商品数量)、文化(例如 OfficeVibe 分数)等。
KPI的目标可以是优化系统、组织、产品、业务等。

另一方面,SLI服务水平指标主要关注可靠性工程,并且由于近年来 SRE(站点可靠性工程)的普及而得到普及。
SLI 涵盖各种服务指标,如延迟、错误率、吞吐量、数据一致性、缓存命中率等。

标准化
KPI 无需标准化归一化,指标数据点可以是任意数字,例如月活跃用户数(MAU)。
SLI 也不需要标准化。但通常是这样的:SLI=Good/Valid×100

通过这种标准化,可以更容易地根据服务水平目标 ( SLO ) 来评估服务水平状态 ( SLS ),它们都是介于 0 到 100 之间的值。

目标
KPI 经常和 OKR(目标与关键结果)结合使用。例如:

  • 目标与关键结果
    • 目标:增加月活跃用户(MAU)
    • 下一季度的主要成果
      • 新用户注册量增加 20%
      • 将用户保留率从 60% 提高到 75%
      • 将用户流失率降低 15%
  • 关键绩效指标
    • 用户注册
    • 用户留存率
    • 用户流失率
需要指出的一点是,OKR 往往雄心勃勃。它们瞄准星星、月亮。即使你错过了一个 OKR,你仍然可以庆祝进步

这与 SLO 的工作方式形成了鲜明对比。SLO 的口号是少承诺,多兑现。

示例:假设 SLO 承诺在 28 天内对 99% 的请求做出无错误响应。

如果我们在这段时间内收到了 2.13 亿个请求,那么至少应该有 210,870,000 个请求能够得到无错误响应(这个数字就是给定时间段内的服务级别状态)。

请注意,任何较高的数字都可以(例如 212M),但较低的数字(例如 200M)意味着违反 SLO。

问责制
这两个指标都涉及责任的概念。尽管根据我的经验,KPI 和 OKR 通常很难以推动行动的方式实施,并且每天都出现在组织树的叶节点上。它们主要由高层和中层管理人员用来协调关键绩效指标。

另一方面,SLI 的含义来自于设定最低期望的 SLO。

良好的 SLO 应该与警报相结合,以便服务所有者在服务水平下降时立即采取行动。

此外,好的 SLI 仅衡量服务所有者拥有的内容,仅此而已。事实上,您永远不应该对您无法控制的内容负责。

另一方面,KPI 倾向于衡量更大组织单位(例如团队集群)的绩效,这使得它们更难追溯到个人或服务。所有权概念不那么精细。

时间范围
KPI/OKR 通常涉及较长的时间范围。通常,这个时间跨度是一年的一个季度。因此,即使 KPI 表现不佳,组织也会等到季度末才进行最终评估。

如果过早达到 OKR,组织也有可能受到惩罚:领导层可能会改变目标并设定更积极的 OKR。

因此,帕金森定律开始起作用:

工作会不断扩展,直到占满完成它所需的时间——帕金森定律

另一方面,SLI 的合规期(也称为 SLO 窗口)较短:通常为 30 天。

正如我们之前所阐述的,这个窗口的长度直接影响宽容度。SLO 的窗口比 OKR 短,这意味着它们对服务水平下降的宽容度较低,需要更快的反应,因此需要发出警报。

结论
让我们回顾一下我们所学到的知识:

  • KPI:高水平的绩效指标,应用范围广泛。KPI 中的关键词是绩效。
  • SLI:具体系统可靠性指标。SLI 中的关键词是服务。