高可靠性
建立弹性支付系统的 10 个技巧
Shopify Engineering 文章解释了构建弹性支付系统的 10 个最有用的提示和技巧。这是列表:1、设置低超时:他们建议尽可能调查并设置低超时。例如,Ruby 的内置 Net::HTTP .
Meta:自动清理死代码
Meta 的系统代码和资产删除框架 (SCARF) 有一个用于识别和删除死代码的子系统。 SCARF 结合了程序的静态和动态分析,从业务和编程语言的角度检测死代码。 SCARF 自动创建更改请求,删除.
谷歌:二十年站点可靠性工程的经验教训
我们作为 Google 站点可靠性工程师学到的 11 件事:1、缓解措施的风险应随着中断的严重程度而变化我们惨痛地认识到,在事件发生期间,我们应该监控和评估情况的严重性,并选择风险适合该严重程度的缓解.
Kotlin和Java简单的重试代码 - Vlad
这是您无需任何其他库或代码依赖项即可重试部分代码的方式。如果需要更复杂的东西,推荐使用Resilience4j库,因为它提供了其他即用型功能。public static <T> T executeWi.
Udemy在Apache Kafka上引入热重试和冷重试
使用 Nginx 缓存代理使您的后端更可靠
我们大多数人都熟悉 Nginx——它是一个非常流行的 Web 服务器和反向代理。但是您知道您也可以将它用作缓存代理吗?现在,您可能想知道为什么有人想做这样的事情——您不能更新您的服务以在 Redis .
贝莱德公司的现场可靠性工程
贝莱德是全球最大的资产管理公司,管理的资产超过 10 万亿美元。除了作为资产管理公司,贝莱德还是一家科技公司。他们向其他资产管理公司、银行、保险公司等出售各种软件。他们最大的产品是金融行业最受欢迎的投.
有史以来最长的Atlassian停机 - Gergely
我们正处于Atlassian有史以来最长的一次中断中。近400家公司和5万至80万用户无法访问JIRA、Confluence、OpsGenie、JIRA状态页面和其他Atlassian云服务。这次中断.
SRE 实用指南:事件严重性级别 - rootly
事件严重性级别衡量事件对业务的影响。对问题的严重程度进行分类对于决定问题解决的速度和效率至关重要。在不断增长、规模庞大的公司中,事故是不可避免的。强大的事件管理策略最终会导致更好地管理和处理问题。它是.
高朋Groupon使用 Redis 每分钟扩展数百万个地理空间查询
为了让高朋Groupon用户附近找到相关的交易,需要进行大量的地理空间搜索。这些搜索是在地理空间实体上执行的,例如邮政编码、时区、社区或兴趣点。每分钟以低延迟提供数百万次查询需要高效的空间索引器进行优.
使用里德-所罗门码Reed-Solomon奇偶校验提高传输数据的可靠性 - berthub
什么是可靠性标准以及如何保证? -DZone
托马斯·里德(Thomas Reid)曾经写道:“整个一条链并不比链条中最薄弱的节点更强大。” 这对于任何具有相互依赖的链接的系统都是如此,无论是文字链还是软件应用程序中的依赖链。如果一个链接断开,负.
创建Redis和Node.js带有连接超时监测的高可靠性方法 -ErenYatkin
本文谈论如何创建了一个漂亮的Redis连接处理程序。为微服务找到的最合适的方式。如果您已经安装了Docker,只需执行以下命令即可运行Redis服务器实例。docker run -d --name r.
Go语言中用于错误处理的Defer、Panic和Recover - Sachin Karve
许多开发人员在开始开发企业级应用程序之前,往往会忽略编程语言的错误处理机制。最好以一种可以从异常中恢复(万一发生)的方式开发代码。不同的编程语言以不同的方式处理错误,异常和恢复。Go采用了Defer、.