高可用性

     

使用 MaxScale 实现数据库的高可用性和弹性

17

在本文中,通过 Docker Compose 运行的实际演示来了解数据库 (MariaDB) 的高可用性和弹性。关键任务应用程序需要高可用性。高可用性的目标是为用户提供对服务或资源的一致访问,最大限度.

Spring Boot中@Retryable重试教程

29 12K

在不断连接的分布式系统世界中,应用程序经常面临短暂故障的困扰。这些意外的问题(例如网络故障或临时数据库中断)可能会导致合法操作失败,尽管一切正常。传统上,处理这些暂时性故障意味着繁琐的错误处理代码,其.

企业架构十大非功能性需求

495 3K

功能需求定义了系统应该做什么。就汽车而言,这意味着将一个人从 A 地带到 B 地;而非功能性需求规定了系统应该是什么样子。1. 可伸缩性可扩展性是指系统随着用户或请求数量的增加而执行和操作的能力。这可.

混沌工程简介

784

混沌工程最著名的应用也许始于Netflix,当时他们开发了Chaos Monkey。什么是混沌工程?使用混沌工程来提高公共云中工作负载的弹性和可靠性有哪些好处?什么是混沌工程?“混沌工程是对系统进行实.

使用 Nginx 缓存代理使您的后端更可靠

1093 3K

我们大多数人都熟悉 Nginx——它是一个非常流行的 Web 服务器和反向代理。但是您知道您也可以将它用作缓存代理吗?现在,您可能想知道为什么有人想做这样的事情——您不能更新您的服务以在 Redis .

系统架构10大架构特征 - zonito

2125 4K

想象一下你正在买一辆车。您需要其中的哪些基本功能?车辆应该将人从 A 点运送到 B 点。但我们还要检查的是安全性、舒适性、可维护性、易于维修或更好的里程。您也可以寻找电动版本或更快的速度。为什么?为了.

Java出现一个新的GC:​​​​​​​LXR

1293 1

LXR是一种基于引用计数的新 Java 垃圾收集器,一种新的低延迟、高吞吐量的垃圾回收器。该文在OpenJDK 11(当时的LTS)中构建了LXR,与现有G1、Shenandoah和ZGC等回收器进行.

Twitter构建高度可靠的广告投放系统的经验教训

525

在设计、实施和运营起广告投放系统的两年中,我们学到了一些值得分享的东西:首先,不可能为所有故障设计服务并为耗尽而设计。在容错的复杂性和各种故障的可能性之间找到平衡是很重要的。例如,为了达到所需的 SL.

有史以来最长的Atlassian停机 - Gergely

788 3K

我们正处于Atlassian有史以来最长的一次中断中。近400家公司和5万至80万用户无法访问JIRA、Confluence、OpsGenie、JIRA状态页面和其他Atlassian云服务。这次中断.

大规模分布式系统中的级联故障 - stuttgart

1428 2K
对谷歌、亚马逊和 Co.等公司来说服务的可靠运行非常重要,但它们的系统一次又一次地出现故障,导致大量中断和糟糕的客户体验。人们经常会遇到所谓的级联 故障,导致超出普通系统故障的不良并发症。即使是在线业.

如何分片数据库? - stackoverflow

905 1 5K

分片是解决网络应用发展带来的新挑战的方法之一。其他解决方案包括 DBaaS(或云中的数据库)、新的数据库架构,或者只是增加用于存储的数据库数量的老式方法。 随着智能手机的出现,应用程序将我们消耗和产生.

最大个人直播平台Twitch如何实现99.99%高可用性?

1050 1 5K

Twitch是世界上最大的个人流媒体直播平台,客户端观看Twitch的方式有很多,包括桌面浏览器、移动设备、游戏机和电视应用程序。客户端交付平台团队拥有向用户交付Twitch客户端的基础设施。去年,我.

解耦事务:在抖动的SQL服务器上实现低尾延迟在线事务 (CIDR 2022)

1230 1 2K
这是Pat Helland 的论文:Pat Helland 的 CIDR22 论文,Pat的论文总是非凡的、与众不同的。他们有很多智慧。 问题和范围抖动是指最大延迟与最小延迟的时间差,如最大延迟是20.

在分布式系统中通过客户端库包提高可用性

913 4K

在客户端应用程序中设置一个库,我们可以一致地处理故障,从而提高系统的感知可用性。在开发在我们自己的公司内部或外部使用的 API 时,除了记录和公开端点之外,我们还可以选择交付客户端库。这种方法对用户有.

2022年站点可靠性工程SRE预测 - blameless

936

站点可靠性工程 (SRE) 的实践在2022年如何? 随着可靠性成为公司运营能力的基础,我们预测 SRE 角色将发挥其真正潜力,而不是受到部分实施的限制。如果 SRE 目前像机械师一样,在汽车发生碰撞.

亚马逊对2022年以后的云计算技术预测

1590 1 2K

我们已经到了一个拐点:在亚马逊 AWS十五年前率先推出云技术之后,云基础设施已经发展到我们可以看到云的所有部分几乎可以到达地球上的任何地方,甚至可以到达太空。云让曾经的科幻小说变成了科学事实。人工智能.

如何编写幂等的 Bash 脚本?- Arslan

867 3K

您编写了一个 bash 脚本,但由于错误而中途退出,您修复系统中的错误并再次运行脚本。但是脚本中的一半步骤会立即失败,因为它们已经应用于您的系统。要构建弹性系统,您需要编写幂等的软件。 什么是幂等性?.

Honeycomb使用Apache Kafka为数据摄取提供高可用性缓冲管道

1079 3K

当您将遥测数据发送到 Honeycomb 时,Honeycomb 的基础架构需要先缓冲您的数据,然后再在我们的“检索器”列式存储数据库中进行处理。在 Honeycomb 的整个存在过程中,我们一直使用.

配置Apache Kafka生产者参数以获得高可用性和弹性 - Nabraj

1106 4K
Apache kafka以其弹性、容错性和高吞吐量而闻名。但它的表现并不总是满足所有人的期望。在某些情况下,我们可以通过缩小或扩大代理规模来改进它。而在大多数情况下,我们必须玩配置游戏。在卡夫卡的生态.

九个安全漏洞让Redis并不能提供高可用性与高可靠性

1931 1 2K

历史: 版本 1 (2021-10-05 19:15)Neues Advisory 版本 2 (2021-10-20 09:39)适用于 Oracle Linux 8 (aarch64, x86_64.

2021年10月4日Facebook宕机的原因

2446 1

今天,Facebook 及其附属服务 WhatsApp 和 Instagram 都已关闭。他们的 DNS 名称停止解析,他们的基础设施 IP 无法访问。初步分析是BGP路由配置错误导致!以下是clou.

为什么 Reddit 如此缓慢和不可靠? | HackerNews

2163

在大型高流量网站中,reddit 似乎是最慢和最不可靠的。很多时候它根本无法加载,或者无缘无故地将您注销。为什么您认为 reddit 从未设法改善其基础设施? 众说纷纭:他们支付给工程师的工资低于市场.

没有理由在分布式系统中反对冗余 (马克)

1153

从根本上说,分布式系统比单机系统具有更高的可用性是一个根本原因:冗余。运行系统所需的软件,状态和其他内容在多个地方存在。当其中一个地方发生故障时,其他地方可以接管。这适用于复制的数据库,负载平衡的无状.

Spring Cloud Gateway的API速率限制 - spring.io

2069 4K
架构上当务之急之一是保护API和服务端点免受有害影响,例如拒绝服务,级联故障。或过度使用资源。速率限制是一种控制使用API​​或服务的速率的技术。在分布式系统中,没有比集中配置和管理使用者可以与API.

阿里巴巴哨兵Sentinel简介 | Baeldung

4012 5K

顾名思义,Sentinel是微服务的强大后卫。它提供了流量控制,并发限制,电路中断和自适应系统保护等功能,以确保其可靠性。这是阿里巴巴集团积极维护的开源组件。此外,它正式是Spring Cloud C.

什么是数据库事务的写偏斜write-skew?- justinjaffray

5728 2K

这篇文章是关于写歪斜write-skew的知识以及扩展快照隔离的知识。快照隔离被称为事务隔离级别,它在性能和正确性之间提供了很好的组合,但是此处“正确性”的确切含义通常含糊不清。在这篇文章中,我想分解.

快速失败是让失败立即快速发生! - pathelland

995

随着我们逐渐利用云计算,这变得越来越具有挑战性。由于各个组件都面临着被称为“灰色失败”的新挑战,因此我们创建强大解决方案的方法仍然面临压力 。在出现灰色故障时,服务器或网络的一部分不会快速失败,而是开.

用Apache Kafka替换RabbitMQ来消除任务处理中断 - DoorDash

1758 1 2K

扩展后端基础架构以处理超增长是在DoorDash工作的众多令人兴奋的挑战之一。在2019年中期,我们面临着重大的扩展挑战,涉及Celery和RabbitMQ的频繁停机,这两种技术为系统处理异步工作提供.

数据库必须面对的九条挑战 - thenewstack

1464

当今的数据库面临着前所未有的挑战。他们必须处理大量不同的数据,眨眼间就能得到结果,并应对极其复杂的技术环境,同时又要易于使用且高度可用。为了应对这些挑战,现代数据库平台必须具备以下九个关键特征:1.即.

以可靠的方式运维大型分布式系统:我在Uber学到的实践 - Gergely Orosz

1 1162 1 11K
在过去的几年里,我一直在构建和运营一个大型分布式系统:优步的支付系统。在此期间,我学到了很多关于分布式架构概念的知识,并亲眼目睹了高负载和高可用性系统不仅要构建还要运行的挑战。构建系统本身是一项有趣的.