• Udemy Payments Team中关于如何使用 Apache Kafka  的非阻塞重试来构建容错事件传递系统的概述Udemy 平台上有超过 4600 万学生和 64400 万课程注册,每天都有许多用户通过结帐流程来访问内容。这会产生大量流量,同时也会导致许多支付
  • 事件严重性级别衡量事件对业务的影响。对问题的严重程度进行分类对于决定问题解决的速度和效率至关重要。在不断增长、规模庞大的公司中,事故是不可避免的。强大的事件管理策略最终会导致更好地管理和处理问题。它是可靠性工程的重要组成部分,可确保团队准备好管理事件。它可以防止在发生违规或停机时损失
  • 这是您无需任何其他库或代码依赖项即可重试部分代码的方式。如果需要更复杂的东西,推荐使用Resilience4j库,因为它提供了其他即 icon
  • 里德-所罗门码Reed-Solomon 是一种很酷的方式来保护消息免受损坏或部分到达。根据您的选择,您可以将t 个奇偶校验符号添加到消息中。这些t奇偶校验符号允许您: 从未知位置的t/2 个损坏的符号中恢复 从已知位置的t 个损坏/丢失的符号中恢复 检 icon
  • 托马斯·里德(Thomas Reid)曾经写道:“整个一条链并不比链条中最薄弱的节点更强大。” 这对于任何具有相互依赖的链接的系统都是如此,无论是文字链还是软件应用程序中的依赖链。如果一个链接断开,负载就会崩溃。对于SaaS,PaaS,IaaS和其他服务提供商,此概念可以成就或破坏业 icon
  • 本文谈论如何创建了一个漂亮的Redis连接处理程序。为微服务找到的最合适的方式。如果您已经安装了Docker,只需执行以下命令即可运行Redis服务器实例。 icon
  • 许多开发人员在开始开发企业级应用程序之前,往往会忽略编程语言的错误处理机制。最好以一种可以从异常中恢复(万一发生)的方式开发代码。不同的编程语言以不同的方式处理错误,异常和恢复。Go采用了Defer、Panic和Recover的方式,彼此密切配合以确保程序的顺利执行。  icon
  • 我们大多数人都熟悉 Nginx——它是一个非常流行的 Web 服务器和反向代理。但是您知道您也可以将它用作缓存代理吗?现在,您可能想知道为什么有人想做这样的事情——您不能更新您的服务以在 Redis 或 Memcached 中缓存数据吗?将缓存外部化到服务之外的单独层有什么好处? icon
  • 为了让高朋Groupon用户附近找到相关的交易,需要进行大量的地理空间搜索。这些搜索是在地理空间实体上执行的,例如邮政编码、时区、社区或兴趣点。每分钟以低延迟提供数百万次查询需要高效的空间索引器进行优化。本文介绍了 Groupon 如何使用 Redis 来支持两种主要类型的地理空间搜 icon
  • 贝莱德是全球最大的资产管理公司,管理的资产超过 10 万亿美元。除了作为资产管理公司,贝莱德还是一家科技公司。他们向其他资产管理公司、银行、保险公司等出售各种软件。他们最大的产品是金融行业最受欢迎的投资管理软件平台Aladdin 阿拉丁。资产管理公司(银行、养老基金、对冲基金 icon
  • 我们正处于Atlassian有史以来最长的一次中断中。近400家公司和5万至80万用户无法访问JIRA、Confluence、OpsGenie、JIRA状态页面和其他Atlassian云服务。 这次中断已经是第9天了,从4月4日星期一开始。阿特拉斯 icon
  • 我们作为 Google 站点可靠性工程师学到的 11 件事: 1、缓解措施的风险应随着中断的严重程度而变化我们惨痛地认识到,在事件发生期间,我们应该监控和评估情况的严重性,并选择风险适合该严重程度的缓解路径 icon
  • Shopify Engineering 文章解释了构建弹性支付系统的 10 个最有用的提示和技巧。 icon
  • Meta 的系统代码和资产删除框架 (SCARF) 有一个用于识别和删除死代码的子系统。 SCARF 结合了程序的静态和动态分析,从业务和编程语言的角度检测死代码。 SCARF 自动创建更改请求,删除从程序分析中识别出的无效代码,从而最大限度地降低开发人员成本。 </ icon
  • 在本文中,我们将探索Failsafe库,并了解如何将其合并到我们的代码中,以使其对故障情况更具弹性。 什么是容错?无论我们将应用程序构建得多么好,总会有可能出错的地方。通常,这些都是我们无法控制的——例如,调用不可 icon
  • 这篇文章讨论了Chandy-Lamport协议。这篇文章由Federico Ponzi于2024年5月30日发布,并在2024年6月3日进行了最后更新。文章内容涵盖了分布式快照试图解决的问题、它的应用场景、系统模型、全局状态检测算法、快照一致性的定义、快照收集方法、实现该算法的系统、TLA+ icon
  • 网络可靠性是人们对专注于网络行为的分布式系统的错误认识之一。 在设计大型应用程序时,我们经常假设在两个节点之间通信时会丢失 icon
  • 在本教程中,我们将学习如何使用发布者确认来确保将消息发布到RabbitMQ代理。然后,我们将了解如何使用消费者确认来告知代理我们已成功使用消息。 场景在简单的应用程序中,我们在使用 RabbitMQ 时经常会忽略显 icon