SRE网站可靠性工程

     

DevOps 团队的 5 种节省时间和解决问题的技术

86 2K

DevOps 几乎改变了软件开发的方方面面,使我们从每 12 个月一次大爆炸部署的黑暗时代转变为每天多次发布软件的现实。然而,DevOps专业人员必须克服几个障碍才能在组织内成功实施和维持DevOps.

谷歌:二十年站点可靠性工程的经验教训

228 3K

我们作为 Google 站点可靠性工程师学到的 11 件事:1、缓解措施的风险应随着中断的严重程度而变化我们惨痛地认识到,在事件发生期间,我们应该监控和评估情况的严重性,并选择风险适合该严重程度的缓解.

掌握DevOps的20个技巧

155

这里有20个技巧可以帮助你掌握DevOps:1、从内到外学习Linux:加深您对Linux发行版、命令和系统管理的了解。2、了解DevOps原则:熟悉DevOps原则,包括协作、自动化和持续改进。3、.

浅谈Linux页面缓存

164 6K

Linux 页面缓存(Page Cache)对于每个SRE来说都是必不可少和至关重要的。对页面缓存理解可以帮助完成日常的 DevOps 类任务以及紧急调试和救火。什么是Linux 页面缓存?从本质上讲.

为什么Twitter注定要失败? - mos

1578 1 3K

编写最少代码行的人通常在处理最难的问题。这是Twitter的运维人员发布的贴子,马斯克收购了Twitter以后,只留下会写代码的工程师:作为一个拥有10年以上行业经验的SRE和系统管理员,下面是一些对.

什么是数字免疫系统?

3285 2

在我们深入了解什么是数字免疫系统(digital immune system)之前,让我们考虑一下免疫对一个生物体意味着什么。免疫力是指生物体对特定疾病的反应、回应和抵御能力,特别是对入侵的病原体的保.

贝莱德公司的现场可靠性工程

793 2K

贝莱德是全球最大的资产管理公司,管理的资产超过 10 万亿美元。除了作为资产管理公司,贝莱德还是一家科技公司。他们向其他资产管理公司、银行、保险公司等出售各种软件。他们最大的产品是金融行业最受欢迎的投.

站点可靠性工程SRE与平台工程比较

1351 2K

在过去的十年中,工程和技术组织已经融合了一套通用的最佳实践来构建和部署云原生应用程序。这些最佳实践包括持续交付、容器化和构建可观察系统。与此同时,云原生组织已经从根本上改变了他们的组织方式,从大型部门.

平台工程是新的DevOps或SRE - Daniel

1771 2

“平台工程”正在迅速成为新的 DevOps 或 SRE。几乎每天我们都会听到有一个公司正在构建内部开发人员平台或控制平面。我们都已经建立了多年的应用/网络平台 - 企业内部:ticket驱动,裸机,交.

2022年站点可靠性工程SRE预测 - blameless

936

站点可靠性工程 (SRE) 的实践在2022年如何? 随着可靠性成为公司运营能力的基础,我们预测 SRE 角色将发挥其真正潜力,而不是受到部分实施的限制。如果 SRE 目前像机械师一样,在汽车发生碰撞.

最佳站点可靠性工程SRE工具介绍 - thenewstack

1564 3K

站点可靠性工程(SRE)是当前令人兴奋的领域。这不仅是因为SRE承担着独特的责任,而且还因为他们通常可以自由选择自己的工具和技术,以便可以在日常操作中优先考虑可靠性。站点可靠性工程(SRE)对于不同的.

Google App引擎如何可靠地支持每天1千亿的请求?

2314 4 2K

站点可靠性工程(Site Reliability Engineering 简称SRE)是如何保证Google App Engine每天能够支持千亿级的请求调用?站点可靠性工程是一系列工程目标与技术,能.