Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
SRE网站可靠性工程
Google App引擎如何可靠地支持每天1千亿的请求?
站点可靠性工程(Site Reliability Engineering 简称SRE)是如何保证Google App Engine每天能够支持千亿级的请求调用? 站点可靠性工程是一系列工程目标与技术,能够让任何人运维更好的产品系统,它与DevOps理念一起
什么是数字免疫系统?
在我们深入了解什么是数字免疫系统(digital immune system)之前,让我们考虑一下免疫对一个生物体意味着什么。免疫力是指生物体对特定疾病的反应、回应和抵御能力,特别是对入侵的病原体的保护。 这通常是通过开发和部署对抗措施(又称抗体)来对抗外来入侵者来实现的。
平台工程是新的DevOps或SRE - Daniel
“平台工程”正在迅速成为新的 DevOps 或 SRE。几乎每天我们都会听到有一个公司正在构建内部开发人员平台或控制平面。我们都已经建立了多年的应用/网络平台 - 企业内部:ticket驱动,裸机,交货时间长 - 第一代PaaS:自助服务、基于虚拟机、一刀切、
为什么Twitter注定要失败? - mos
编写最少代码行的人通常在处理最难的问题。这是Twitter的运维人员发布的贴子,马斯克收购了Twitter以后,只留下会写代码的工程师: 作为一个拥有10年以上行业经验的SRE和系统管理员,下面是一些对bird网站的完整性构成真实的威胁的场景。 <
最佳站点可靠性工程SRE工具介绍 - thenewstack
站点可靠性工程(SRE)是当前令人兴奋的领域。这不仅是因为SRE承担着独特的责任,而且还因为他们通常可以自由选择自己的工具和技术,以便可以在日常操作中优先考虑可靠性。站点可靠性工程(SRE)对于不同的公司可能具有不同的含义;负责可靠性的运维人员通常使用
站点可靠性工程SRE与平台工程比较
在过去的十年中,工程和技术组织已经融合了一套通用的最佳实践来构建和部署云原生应用程序。这些最佳实践包括持续交付、容器化和构建可观察系统。与此同时,云原生组织已经从根本上改变了他们的组织方式,从大型部门(开发、质量保证、运营、发布)转移到较小的独立开发团队。这些应用程序开发团队由两个新
2022年站点可靠性工程SRE预测 - blameless
站点可靠性工程 (SRE) 的实践在2022年如何? 随着可靠性成为公司运营能力的基础,我们预测 SRE 角色将发挥其真正潜力,而不是受到部分实施的限制。如果 SRE 目前像机械师一样,在汽车发生碰撞时修理汽车,那么未来 SRE 将变得更像土木工程师,更多地专注于为汽
贝莱德公司的现场可靠性工程
贝莱德是全球最大的资产管理公司,管理的资产超过 10 万亿美元。除了作为资产管理公司,贝莱德还是一家科技公司。他们向其他资产管理公司、银行、保险公司等出售各种软件。他们最大的产品是金融行业最受欢迎的投资管理软件平台Aladdin 阿拉丁。资产管理公司(银行、养老基金、对冲基金
谷歌:二十年站点可靠性工程的经验教训
我们作为 Google 站点可靠性工程师学到的 11 件事: 1、缓解措施的风险应随着中断的严重程度而变化我们惨痛地认识到,在事件发生期间,我们应该监控和评估情况的严重性,并选择风险适合该严重程度的缓解路径
浅谈Linux页面缓存
Linux 页面缓存(Page Cache)对于每个SRE来说都是必不可少和至关重要的。对页面缓存理解可以帮助完成日常的 DevOps 类任务以及紧急调试和救火。 什么是Linux 页面缓存?从本质上讲,页
掌握DevOps的20个技巧
这里有20个技巧可以帮助你掌握DevOps: 1、从内到外学习Linux:加深您对Linux发行版、命令和系统管理的了解。 2、了解DevOps原则:熟悉DevOps原则,包括协作、自动化和持续改
DevOps 团队的 5 种节省时间和解决问题的技术
DevOps 几乎改变了软件开发的方方面面,使我们从每 12 个月一次大爆炸部署的黑暗时代转变为每天多次发布软件的现实。然而,DevOps专业人员必须克服几个障碍才能在组织内成功实施和维持DevOps文化。 让我们回顾一下五种可以让DevOps团队
使用 STAMP 提高 Google 生产系统的弹性
Google SRE 采用了系统理论和控制理论:由麻省理工学院 Nancy Leveson 教授开发的 STAMP(系统理论事故模型和过程)框架,该框架将重点
5个Kubernetes管理经验
Kubernetes 现已成为公认的容器编排标准,彻底改变了组织部署和管理应用程序和服务的方式。然而,在企业环境中大规模部署 Kubernetes 面临着与小型企业不同的独特挑战。让我们来看看我们从帮助企业客户成功将应用程序和服务部署到生产环境中学到的关键经验教训。
API网关实现高可用性7种技术
想要让您的 API 网关在流量增长时保持平稳运行?以下是如何扩展并保持可用性的方法:负载平衡:跨服务器分散请求添加更多服务器:提高处
SLI 与 KPI
服务水平指标(SLI)与关键绩效指标(KPI)相同吗? 视情况而定! 它们有很多相似之处,但也有一些重要的细微差别,本文将深入探讨。 区分这两者真的很重要吗?嗯