最佳站点可靠性工程SRE工具介绍 - thenewstack


站点可靠性工程(SRE)是当前令人兴奋的领域。这不仅是因为SRE承担着独特的责任,而且还因为他们通常可以自由选择自己的工具和技术,以便可以在日常操作中优先考虑可靠性。
站点可靠性工程(SRE)对于不同的公司可能具有不同的含义;负责可靠性的运维人员通常使用DevOps工具集。但是,可以肯定的是:SRE将软件工程师的技能以及生产和运营管理相结合,以实现高可靠性并确保达到SLO / SLA目标。因此,SRE不仅需要牢牢把握系统中涉及的技术,还需要牢牢把握生产部署的复杂性。
 
关键APM(应用程序性能管理)和监视工具

  • Datadog:Datadog是作为云监控解决方案销售的,它几乎可以提供您在这方面需要的所有内容。例如,您可以设置监视器,查看当前基础结构主机,收集事件,添加综合和RUM监视等等。它提供了大量的自定义机会,并且可以与其他系统很好地集成。尽管UI看起来很肿,并且需要花费一些时间来学习其查询语言,但是通过适当的培训,您将可以充分利用此服务。
  • Kibana: Kibana是一个免费的数据可视化平台,通常从Elasticsearch集群中收集指标。如果您正在使用弹性堆栈(ELK堆栈),那么Kibana是最适合此工作的工具。Kibana还提供许多其他服务,例如SecOps和业务分析,使之成为有价值的工具。由于它是免费的,因此Kibana对于小型企业和创业公司也是一个不错的选择。
  • New Relic: New Relic是基于云的平台,专门研究可观察性,遥测和监视性能。它用于在单个仪表板中跟踪分布式服务和应用程序的性能特征,并且主要针对大型企业。

 
关键自动响应系统
  • PagerDuty: PagerDuty是基于云的事件响应平台,专门研究呼叫轮换和事件管理。它可以与许多提供商和服务集成,并且在发生实际事件时可以很好地工作。该公司的定价模式相当实惠,并且该产品适用于所有类型的企业。您甚至可以通过安装本机应用程序在手机或智能手表上接听电话和通知。
  • VictorOps(Splunk On-Call): VictorOps现在是Splunk On-Call的一部分,这是企业级事件响应系统的另一个不错的选择,尽管它有点贵。如果您的组织已经在使用Splunk,则也可以采用其随叫随到的选项。
  • Opsgenie:此事件响应平台是Atlassian的一部分,因此对于那些喜欢使用其产品的人来说是一个不错的选择。定价模型也相当实惠-它甚至有一个免费层,具有基本的警报和最多五个用户的通话管理。

 
最佳项目跟踪工具
  • Jira:这是Atlassian的主要产品,也是最普遍使用的产品。这是一个用于跟踪项目和团队进度的敏捷平台,各种规模的专业组织都在使用它。缺点是有时看起来和感觉很慢。
  • Trello:这也来自Atlassian,但是比Jira更平易近人且易于使用。您可以免费开始使用Trello,并且无需太多投资即可很好地扩展。
  • Asana:此敏捷项目管理服务可免费启动,并随您的业务发展而增长。它是Jira的不错选择,并且拥有不断增长的用户基础。根据Crunchbase的数据,它去年的收入为1.425亿美元,考虑到在线项目管理软件的市场价值超过40亿美元,这还不错。如果您对Jira不满意,可以尝试使用Asana作为替代方案。

 
最佳基础架构部署工具
最后,SRE将希望自动化部分甚至全部部署基础架构。以下是执行此操作的好工具:
  • Terraform: Terraform是HashiCorp的工具,象征基础设施即代码(IaC)一词。它允许DevOps团队使用特定于域的配置语言来描述其基础架构组件,例如VM,Kubernetes群集,数据库或VPC。然后,采用这些描述并在云环境中创建基础结构组件。Terraform实际上是开发的必备工具,而且值得庆幸的是,您可以免费开始使用它。
  • Ansible: Ansible是使IT基础架构自动化的工具。它主要使用YAML文件来描述需要按特定顺序运行的角色,服务和任务。每次运行时,Ansible都会使用SSH连接到计算机,并以脚本的形式运行剧本中描述的任务。此时,它将从连接的主机中删除所有脚本或临时信息,并将状态报告给用户。由于它是用Python编写的,因此Ansible是非常可扩展的,并且可以处理各种各样的角色和脚本。
  • SaltStack: SaltStack是另一种采用不同寻常方法的IT基础架构和配置管理工具。它依赖于安装在主机中的代理,然后这些代理使用数据驱动的通信命令编排。如果配置正确,它可以以最小的工作量自动将部署部署到数千个节点中。SaltStack被VMware收购,因此其未来现在取决于VMware的愿景。