• 我们已经到了一个拐点:在亚马逊 AWS十五年前率先推出云技术之后,云基础设施已经发展到我们可以看到云的所有部分几乎可以到达地球上的任何地方,甚至可以到达太空。云让曾经的科幻小说变成了科学事实。人工智能 (AI) 和机器学习 (ML) 领域的模型和技术变得越来越好——以至于我们看到了以前只能在
  • 分片是解决网络应用发展带来的新挑战的方法之一。其他解决方案包括 DBaaS(或云中的数据库)、新的数据库架构,或者只是增加用于存储的数据库数量的老式方法。 随着智能手机的出现,应用程序将我们消耗和产生的数据量增加到了 15 年前无法想象的水平。这给数据库集群带来了很大的压力,因为它们
  • LXR是一种基于引用计数的新 Java 垃圾收集器,一种新的低延迟、高吞吐量的垃圾回收器。 该文在OpenJDK 11(当时的LTS)中构建了LXR,与现有G1、Shenandoah和ZGC等回收器进行了比较评估,LXR 在吞吐量和 icon
  • 这是Pat Helland 的论文:Pat Helland 的 CIDR22 论文,Pat的论文总是非凡的、与众不同的。他们 icon
  • Twitch是世界上最大的个人流媒体直播平台,客户端观看Twitch的方式有很多,包括桌面浏览器、移动设备、游戏机和电视应用程序。客户端交付平台团队拥有向用户交付Twitch客户端的基础设施。去年,我们为我们的一个关键微服务设计了下一代高可用性的防御措施,将可用性从99.9%(3个9)提高到 icon
  • 想象一下你正在买一辆车。您需要其中的哪些基本功能?车辆应该将人从 A 点运送到 B 点。但我们还要检查的是安全性、舒适性、可维护性、易于维修或更好的里程。您也可以寻找电动版本或更快的速度。为什么?为了限制在提供主要功能时可能发生的意外。同样,就像汽车、摩托车或房屋一样,软件也有其非功 icon
  • 对谷歌、亚马逊和 Co.等公司来说服务的可靠运行非常重要,但它们的系统一次又一次地出现故障,导致大量中断和糟糕的客户体验。人们经常会遇到所谓的级联 故障,导致超出普通系统故障的不良并发症。即使是在线业务的大玩家,怎么也不能完全避免这种故障呢?您可以为自己的系统使用哪些切实可行 icon
  • 我们大多数人都熟悉 Nginx——它是一个非常流行的 Web 服务器和反向代理。但是您知道您也可以将它用作缓存代理吗?现在,您可能想知道为什么有人想做这样的事情——您不能更新您的服务以在 Redis 或 Memcached 中缓存数据吗?将缓存外部化到服务之外的单独层有什么好处? icon
  • 站点可靠性工程 (SRE) 的实践在2022年如何? 随着可靠性成为公司运营能力的基础,我们预测 SRE 角色将发挥其真正潜力,而不是受到部分实施的限制。如果 SRE 目前像机械师一样,在汽车发生碰撞时修理汽车,那么未来 SRE 将变得更像土木工程师,更多地专注于为汽 icon
  • 在客户端应用程序中设置一个库,我们可以一致地处理故障,从而提高系统的感知可用性。在开发在我们自己的公司内部或外部使用的 API 时,除了记录和公开端点之外,我们还可以选择交付客户端库。这种方法对用户有很多好处:更容易实现(有时它甚至是单线),更容易迁移(通常只是增加一个依赖版本),并 icon
  • 我们正处于Atlassian有史以来最长的一次中断中。近400家公司和5万至80万用户无法访问JIRA、Confluence、OpsGenie、JIRA状态页面和其他Atlassian云服务。 这次中断已经是第9天了,从4月4日星期一开始。阿特拉斯 icon
  • 混沌工程最著名的应用也许始于Netflix,当时他们开发了Chaos Monkey。 什么是混沌工程?使用混沌工程来提高公共云中工作负载的弹性和可靠性有哪些好处? 什么是混沌工程? icon
  • 在设计、实施和运营起广告投放系统的两年中,我们学到了一些值得分享的东西: 首先,不可能为所有故障设计服务并为耗尽而设计。在容错的复杂性和各种故障的可能性之间找到平衡是很重要的。例如,为了达到所需的 SLA, icon
  • 功能需求定义了系统应该做什么。就汽车而言,这意味着将一个人从 A 地带到 B 地;而非功能性需求规定了系统应该是什么样子。 1. 可伸缩性可扩展性是指系统随着用户或请求数量的增加而执行和操作的能力。这可以通 icon
  • 在不断连接的分布式系统世界中,应用程序经常面临短暂故障的困扰。这些意外的问题(例如网络故障或临时数据库中断)可能会导致合法操作失败,尽管一切正常。传统上,处理这些暂时性故障意味着繁琐的错误处理代码,其中充斥着重试和超时的逻辑。但 Spring Boot 开发人员不要害怕!Spring Boot为您的 icon
  • 重试机制是许多现代软件系统的关键组件。它允许我们的系统自动重试失败的操作,以从暂时性错误或网络中断中恢复。通过自动重试失败的操作,重试机制可以帮助软件系统从意外故障中恢复并继续正常运行。 今天,我们就来看看这些话题:什么是重试模式? icon
  • 在本文中,通过 Docker Compose 运行的实际演示来了解数据库 (MariaDB) 的高可用性和弹性。 关键任务应用程序需要高可用性。高可用性的目标是为用户提供对服务或资源的一致访问,最大限度地减少中断的可能性。自动故障转移是用于实现高可用性的特 icon
  • 想要让您的 API 网关在流量增长时保持平稳运行?以下是如何扩展并保持可用性的方法:负载平衡:跨服务器分散请求添加更多服务器:提高处 icon