SRE 实用指南:事件严重性级别 - rootly


事件严重性级别衡量事件对业务的影响。对问题的严重程度进行分类对于决定问题解决的速度和效率至关重要。
在不断增长、规模庞大的公司中,事故是不可避免的。强大的事件管理策略最终会导致更好地管理和处理问题。它是可靠性工程的重要组成部分,可确保团队准备好管理事件。它可以防止在发生违规或停机时损失数百万美元的收入。良好的事件管理可改善客户体验,并使工程团队能够实现正常运行时间目标。 
在此博客中,我们将讨论公司如何识别事件并确定其优先级以加快解决速度。事件在表面上可能会有很大差异,因此必须根据特定的、明确定义的参数对它们进行分类。所有的事件都不是平等的。例如,高峰时段的系统中断比大多数客户睡着时的处理压力要大得多。 
我们可以将事件分为不同的严重性级别。您的严重性级别定义得越明确,您的团队就越有可能在同一页面上并能够在事件发生时快速、适当地做出反应。
 
定义事件严重性级别 
对严重性级别进行分类的第一步是确定应用程序或服务中最关键的流。它有助于确定事件的构成。我们可以使用“SEV”定义按严重程度对事件进行分类。SEV 编号较低的事件被视为“重大事件”,需要更敏捷的响应。在对严重性级别进行分类时,除了对业务的影响之外,我们还需要考虑各种因素。例如,应用在高峰时段宕机将造成巨大的业务损失。
每个组织都需要了解他们的业务、团队以及适合他们的 SEV 级别定义类型。一些组织将 SEV 级别分为 P0、P1、P2 等。
 
严重性级别分类 

  • SEV 0 或严重或 P0

本质上是灾难性的故障,例如安全漏洞或导致目标受众无法使用您的产品的完全中断,将归入 SEV0。它完全使业务陷入停顿,并可能导致收入和/或声誉的损失。SEV0 事件通常没有快速解决方法,需要整个工程团队的协调努力才能解决此类事件。
  • SEV 1 或 Major 或 P1

SEV1 事件是导致产品部分或完全中断、具有变通方法或影响部分客户的问题。与 SEV1 相比,SEV1 事件不是完全中断,但仍会影响客户体验。例如,一个单一的特征,例如购物网站中推荐系统的中断,就是 SEV1 事件的一个例子。它会影响购物体验,但仍然允许有限的业务通过。此类事件通常需要立即关注,但不如 SEV1 强大。
  • SEV 2 或轻微/中度或 P2

在 SEV2 事件中,用户可以照常完成操作,但会遇到轻微的麻烦和不便。继续以购物网站为例,一些缺失的描述和图像可以归类为 SEV2。此类事件有已知的快速解决方法,并且不难修复。