为什么AIOps是DevOps的下一个前沿?

18-11-06 banq
         

2009年,在项目经理兼敏捷实践者Patrick Debois主持的比利时会议开发人员中,DevOps一词诞生了。突然间,DevOps掀起了技术和商业风暴。如今,DevOps实践已成为全球众多企业不可或缺的一部分。

从规划到持续交付,协作和自动化,开发和运营的结合是成功的。借助DevOps,自动化程度得到提高,测试变得更加容易,部署速度更快。

但是,仍有一些元素可能会降低DevOps流程并削弱其自动化和连续性,包括处理系统警报以及管理和定义规则和过滤器等任务 - 这就是为什么AIOps已成为DevOps的下一个前沿。AIOps可以释放DevOps的全部功能。

什么是AIOps?

算法IT操作(AIOps)是一个基于解决方案的术语,描述了使用机器学习和人工智能来自动执行传统上需要人员参与的任务和流程。AIOps使用的算法可以通过AI解决已知的,单调的和日常的普通问题,而人工工程师则可以解决新的和更复杂的问题。本白皮书根据根本原因分析讨论了AIOps的最佳用例,以及AIOps提供的优势和解决方案。

任何有经验的系统管理员或DevOps或站点可靠性工程师都会关注整个网络的事故(由于未知原因),或者在凌晨3点收到监控警报,说多个服务器已经崩溃。他们在找到原因时遇到各种麻烦。

当然,首先要做的是查看日志,但是日志只能说明事故的一半。另一半怎么样 - 这不能预测这些问题何时会再次发生?系统中断在科技界很常见,无论是某个车库的全新创业公司还是YouTube上的最新停电,没有人是完全安全的。

当IT团队面临系统中断时,他们必须做的第一件事就是确定根本原因。在这种情况下,AIOps会收集所需的指标,事件,事件,跟踪和所有其他数据。可以说,AIOps可以自动发现正常,关键和非关键的行为模式。从那里,用户了解导致手头最大问题的原因以及如何处理这些问题。

为什么AIOps很重要

在收集数据之后,以可视格式向用户呈现各种基础结构和依赖性。处理该任务的个人可以快速识别问题并开始调查。开始追溯调查时,用户可以访问监控生态系统中的所有相关信息,以及可能导致问题的变更计划和实际变更。一旦团队确定了事故的根本原因,他们就可以开始自动化该问题的修复任务并启动事件流程,根据需要获得批准,并通过解决方案不断与所有利益相关方沟通。

然后是防止未来中断和减速 - 通过将业务服务连接到基础设施来实现。这将使用户和公司更好地了解和理解使业务作为服务运行的组件。因此,IT团队必须彻底了解他们的环境,同时消除技术孤岛之间的距离,并让每个人都能更清楚地了解每项业务服务。

接下来是保持所有服务的最新状态。AIOps将每天和每晚运行发现的作业job,确保映射的准确性。此外,基础设施总是在不断变化,不断发现新技术,而其他组件则已经过时。AIOps可以通过自动保持您的服务最新来发挥关键作用。

映射完业务服务后,需要设置来自所有监控系统的系统警报。AIOps实践可以接收来自监控工具的监控错误,并通过您创建的机器学习算法减少警报数量 - 这将有助于消除误报警报,并让团队专注于对特定情况重要的孤岛系统中断。确定事件并开始故障排除后,下一步是优先处理问题并通过编排自动化自动执行修复。

 

当您的监视设置收集有关系统上CPU使用率和不规则度量标准活动的信息时,AIOps将监视常规度量标准活动。如果范围超出系统的正常使用率,则该异常将自动触发创建警报。它还将创建事件报告,以便用户能够从IT服务管理角度跟踪它。之后,用户将能够查看其管理仪表板以查看AIOps平台提供的所有服务。从那里,用户可以快速识别服务问题。一个好的AIOps工具将向用户呈现问题的详细布局,并按严重程度对每个问题进行分类。

当目标是快速解决时,最重要的任务应该是纠正困扰系统的最大问题的根本原因。确定后,您可以继续监控数据。只有经过相当多的监测,才能逐步接近人工智能。

首先应用AIOps结构,为您提供有效的基础工作,以收集大量数据,从而轻松采取行动并监控披露模式的熟练程度。

接下来,研究这些模式可以预测事件发生的点。确保您拥有一支实践型IT团队,不仅可以减少您的平均维修时间,还可以减少您面临的事故数量。

结论

AIOps方法每天都在增长,其实施变得越来越重要。AIOps可以节省宝贵的时间和精力进行根本原因分析。使用机器学习驱动的根本原因分析来实现一种外推状态,在此状态下,您甚至可以在影响主要业务服务和客户体验之前控制事件及其影响。