高可用性 - 第2页

今天，Facebook 及其附属服务 WhatsApp 和 Instagram 都已关闭。他们的 DNS 名称停止解析，他们的基础设施 IP 无法访问。初步分析是BGP路由配置错误导致！以下是cloudflare的博文分析：什么是BGP

扩展后端基础架构以处理超增长是在DoorDash工作的众多令人兴奋的挑战之一。在2019年中期，我们面临着重大的扩展挑战，涉及Cele

在大型高流量网站中，reddit 似乎是最慢和最不可靠的。很多时候它根本无法加载，或者无缘无故地将您注销。为什么您认为 reddit 从未设法改善其基础设施？众说纷纭：他们支付给工程师的工资低于市场价格的一半，在质量工程上没有组织价值，他们有在股权薪酬方面欺骗员工的

历史：版本 1 (2021-10-05 19:15)Neues Advisory 版本 2 (2021-10-20 09:39)适用于 Oracle Linux 8 (aarch64, x86_64) 和 Red H

在过去的几年里，我一直在构建和运营一个大型分布式系统：优步的

Apache kafka以其弹性、容错性和高吞吐量而闻名。但它的表现并不总是满足所有人的期望。在某些情况下，我们可以通过缩小或扩大代理规模来改进它。而在大多数情况下，我们必须玩配置游戏。在卡夫卡的生态系统中，确实有很多配置。几乎不可能掌握每个配置的概念。一方面，它们确实使系统更加灵活

当今的数据库面临着前所未有的挑战。他们必须处理大量不同的数据，眨眼间就能得到结果，并应对极其复杂的技术环境，同时又要易于使用且高度可用。为了应对这些挑战，现代数据库平台必须具备以下九个关键特征： 1.即时表现

当您将遥测数据发送到 Honeycomb 时，Honeycomb 的基础架构需要先缓冲您的数据，然后再在我们的“检索器”列式存储数据库中进行处理。在 Honeycomb 的整个存在过程中，我们一直使用 Apache Kafka在我们的可观察性管道中执行此缓冲功能。在这篇博文中，我们将

您编写了一个 bash 脚本，但由于错误而中途退出，您修复系统中的错误并再次运行脚本。但是脚本中的一半步骤会立即失败，因为它们已经应用于您的系统。要构建弹性系统，您需要编写幂等的软件。什么是幂等性？幂等脚本可以被多次调用，每次调用都

从根本上说，分布式系统比单机系统具有更高的可用性是一个根本原因：冗余。运行系统所需的软件，状态和其他内容在多个地方存在。当其中一个地方发生故障时，其他地方可以接管。这适用于复制的数据库，负载平衡的无状态系统，无服务器系统以及几乎所有其他常见的分布式模式。冗余的一个问题是它

架构上当务之急之一是保护API和服务端点免受有害影响，例如拒绝服务，级联故障。或过度使用资源。速率限制是一种控制使用API或服务的速率的技术。在分布式系统中，没有比集中配置和管理使用者可以与API交互的速率更好的选择了。只有在规定速率内的那些请求才可以进入API。否则将引发HTTP“许多

顾名思义，Sentinel是微服务的强大后卫。它提供了流量控制，并发限制，电路中断和自适应系统保护等功能，以确保其可靠性。这是阿里巴巴集团积极维护的开

这篇文章是关于写歪斜write-skew的知识以及扩展快照隔离的知识。快照隔离被称为事务隔离级别，它在性能和正确性之间提供了很好的组合，但是此处“正确性”的确切含义通常含糊不清。在这篇文章中，我想分解并准确记录何时发生“写偏斜”事件。事务快速入门

随着我们逐渐利用云计算，这变得越来越具有挑战性。由于各个组件都面临着被称为“灰色失败”的新挑战，因此我们创建强大解决方案的方法仍然面临压力。在出现灰色故障时，服务器或网络的一部分不会快速失败，而是开始缓慢运行。慢跑比快跑更糟。慢速组件有时以低于正常速度1％的速度运行，可能很健康，可以说“我

为了使用Redis实现高可用性，我们可以使用Spring Data Redis对Redis Sentinel的支持。使用Sentinel，我们可以创建一个自动抵御某些故障的Redis部署。Redis Sentinel还提供其他附属任务，如监控，通知，并充当客户端的配置提供程序。

这是个Github示例项目，展示如何使用Kubernetes，Kotlin+Spring Boot和Flyway实现零停机时间部署.主程序：