高可用性

亚马逊对2022年以后的云计算技术预测

我们已经到了一个拐点：在亚马逊 AWS十五年前率先推出云技术之后，云基础设施已经发展到我们可以看到云的所有部分几乎可以到达地球上的任何地方，甚至可以到达太空。云让曾经的科幻小说变成了科学事实。人工智能 (AI) 和机器学习 (ML) 领域的模型和技术变得越来越好——以至于我们看到了以前只能在

系统架构10大架构特征 - zonito

想象一下你正在买一辆车。您需要其中的哪些基本功能？车辆应该将人从 A 点运送到 B 点。但我们还要检查的是安全性、舒适性、可维护性、易于维修或更好的里程。您也可以寻找电动版本或更快的速度。为什么？为了限制在提供主要功能时可能发生的意外。同样，就像汽车、摩托车或房屋一样，软件也有其非功

如何分片数据库？ - stackoverflow

分片是解决网络应用发展带来的新挑战的方法之一。其他解决方案包括 DBaaS（或云中的数据库）、新的数据库架构，或者只是增加用于存储的数据库数量的老式方法。随着智能手机的出现，应用程序将我们消耗和产生的数据量增加到了 15 年前无法想象的水平。这给数据库集群带来了很大的压力，因为它们

Java出现一个新的GC：LXR

LXR是一种基于引用计数的新 Java 垃圾收集器，一种新的低延迟、高吞吐量的垃圾回收器。该文在OpenJDK 11（当时的LTS）中构建了LXR，与现有G1、Shenandoah和ZGC等回收器进行了比较评估，LXR 在吞吐量和

在分布式系统中通过客户端库包提高可用性

在客户端应用程序中设置一个库，我们可以一致地处理故障，从而提高系统的感知可用性。在开发在我们自己的公司内部或外部使用的 API 时，除了记录和公开端点之外，我们还可以选择交付客户端库。这种方法对用户有很多好处：更容易实现（有时它甚至是单线），更容易迁移（通常只是增加一个依赖版本），并

最大个人直播平台Twitch如何实现99.99%高可用性？

Twitch是世界上最大的个人流媒体直播平台，客户端观看Twitch的方式有很多，包括桌面浏览器、移动设备、游戏机和电视应用程序。客户端交付平台团队拥有向用户交付Twitch客户端的基础设施。去年，我们为我们的一个关键微服务设计了下一代高可用性的防御措施，将可用性从99.9%（3个9）提高到

企业架构十大非功能性需求

功能需求定义了系统应该做什么。就汽车而言，这意味着将一个人从 A 地带到 B 地；而非功能性需求规定了系统应该是什么样子。 1. 可伸缩性可扩展性是指系统随着用户或请求数量的增加而执行和操作的能力。这可以通

混沌工程简介

混沌工程最著名的应用也许始于Netflix，当时他们开发了Chaos Monkey。什么是混沌工程？使用混沌工程来提高公共云中工作负载的弹性和可靠性有哪些好处？什么是混沌工程？

大规模分布式系统中的级联故障 - stuttgart

对谷歌、亚马逊和 Co.等公司来说服务的可靠运行非常重要，但它们的系统一次又一次地出现故障，导致大量中断和糟糕的客户体验。人们经常会遇到所谓的级联故障，导致超出普通系统故障的不良并发症。即使是在线业务的大玩家，怎么也不能完全避免这种故障呢？您可以为自己的系统使用哪些切实可行

高可用高可靠系统设计中的重试机制

重试机制是许多现代软件系统的关键组件。它允许我们的系统自动重试失败的操作，以从暂时性错误或网络中断中恢复。通过自动重试失败的操作，重试机制可以帮助软件系统从意外故障中恢复并继续正常运行。今天，我们就来看看这些话题：什么是重试模式？

2022年站点可靠性工程SRE预测 - blameless

站点可靠性工程 (SRE) 的实践在2022年如何？随着可靠性成为公司运营能力的基础，我们预测 SRE 角色将发挥其真正潜力，而不是受到部分实施的限制。如果 SRE 目前像机械师一样，在汽车发生碰撞时修理汽车，那么未来 SRE 将变得更像土木工程师，更多地专注于为汽

Spring Boot中@Retryable重试教程

在不断连接的分布式系统世界中，应用程序经常面临短暂故障的困扰。这些意外的问题（例如网络故障或临时数据库中断）可能会导致合法操作失败，尽管一切正常。传统上，处理这些暂时性故障意味着繁琐的错误处理代码，其中充斥着重试和超时的逻辑。但 Spring Boot 开发人员不要害怕！Spring Boot为您的