• 深入了解 Airflow、Prefect 和 Dagster 以及三者之间的区别!互操作性目前还是现代数据技术的棘手的问题:数据管道仍然涉及不完全适合 ETL 工作流的自定义脚本和逻辑。无论是自定义内部服务,还是像下载文件、解压缩文件和读取其内容这样简单的事情,仍然需要编排工具。跨堆
  • 在这篇文章中,我们将看到如何使用 WSL 在同一台 Windows 11 机器上安装完整的 Hadoop 环境。 安装依赖您需要安装两个重要的依赖项才能使 icon
  • 为什么我们 USV 相信 web3 将让人们构建为社会提供独特价值的新事物?这一切都归结为位于应用程序后面的数据库。如果该数据库由单个实体控制(如某个大型科技公司),那么巨大的市场力量就会归于该数据库的所有者/管理员。另一方面,如果数据库是一个开放的公共数据库,不受单一公司控 icon
  • 本文介绍了一个直接支持分布式标识符生成的实现。 1. 分布式系统中的并发标识符生成每个主机都有一个预定义的唯一主机标识符或hostId 。 icon
  • 在构建分布式系统时,一个主要目标通常是构建容错。也就是说,如果网络中的一个特定节点出现故障,或者存在网络分区,则整个集群不会发生故障。参与分布式共识协议的节点集群必须就价值达成一致,一旦达成该决定,该选择即为最终决定。分布式共识算法通常采用复制状态机和日志的形式。每个状态机接受来自其 icon
  • 当一切都要归结于语言编译器的问题,就是要了解数据库,从根本上说,每个计算机系统都与存储、移动和转换数据有关。操作系统、数据库和编程语言之间的界限有些随意——这是特定问题、可用硬件和历史事故的产物。但是今天问题和硬件发生了巨大变化,因此我们开始看到人们尝试重新绘制线条。以下是一 icon
  • 这个问题的答案是相当不确定的。一方面,Hadoop 是一种 IT 解决方案,与任何其他解决方案一样,它的衰落是完全有可能的。此外,云正在大数据世界中占据越来越多的空间。另一方面,许多公司仍在考虑实施该系统以发展其活动。因此,这种转变和这种愿望将在 2022 年仍然存在。但是,明智的做法是在下 icon
  • 通过在数据架构过程的早期解决关键考虑因素,您可以避免将来出现严重问题。构建合适的数据架构对于所有现代架构的长期成功至关重要。为了协助您的应用程序现代化过程,在构建或重新构建应用程序数据时,请遵循以下五个规则。 使用正确类型的数据库 icon
  • 数据已成为任何技术应用的基石,因此需要可靠、高效地存储和访问数据。存储相关技术对存储创新的需求不断增长,从而产生了不同的存储方法来满足消费者和企业的需求。在这篇文章中,我们将研究以下存储技术,同时比较它们的特性和用例。 直连存储 (DAS) 网络附加存储 (NAS) icon
  • Facebook 有序队列服务 (FOQS)是一种完全托管的分布式优先级队列服务,用于在许多服务之间进行可靠的消息传递。FOQS 已从区域部署发展为地理分布的全球部署,以帮助确保存储在逻辑队列中的数据具有高可用性,即使在大规模灾难情况下也是如此。迁移到全局架构需要对架构进行修 icon
  • 服务网格是一个概念,描述了现代云原生应用程序在通信、可见性和安全性方面的要求。这个概念的当前实现涉及在每个工作负载或 pod 中运行 sidecar 代理。边车、侧车 sidecar 代理是解决这些需求的一种非常低效的方法。在这篇文章中,我们将研究 sidecar 模型的替代方案,该模型在 icon
  • Hadoop 是一个用于存储数据和运行应用程序的框架。为任何类型的数据提供大容量存储是其主要功能之一。此外,它具有强大的处理能力,因此它能够一次处理多个并发任务。 Hadoop 模块 Hadoop 分布式文件系统 (HDFS) icon
  • 将幂等性作为建立 API 设计原则来支持。我在这里选择使用 GraphQL 作为应用层协议,但无论使用其他协议,例如 REST 或 RPC,原理都是相同的。GraphQL 查询操作根据服务器的当前状态返回数据。预计随着时间的推移请求具有特定输入的查询可能会返回不同的数据作为输 icon
  • 如果您对后端工程感兴趣,那么设计数据密集型应用程序 (DDIA) 是必读的。数据工程世界充满了流行语和炒作,但Martin Kleppman在分解所有核心技术方面 icon
  • 在客户端应用程序中设置一个库,我们可以一致地处理故障,从而提高系统的感知可用性。在开发在我们自己的公司内部或外部使用的 API 时,除了记录和公开端点之外,我们还可以选择交付客户端库。这种方法对用户有很多好处:更容易实现(有时它甚至是单线),更容易迁移(通常只是增加一个依赖版本),并 icon
  • web3 是一个有点模糊的术语,很难严格评估 web3 的野心应该是什么,但总体论点似乎是 web1 是去中心化的,web2 将一切都集中到平台上,而 web3 将再次去中心化一切。web3 应该给我们 web2 的丰富性,但去中心化。人们不想运行自己的服务器,而且永远不会。 icon
  • 在 AI/ML 世界中并行计算的知识有多大用处或适用性?AI/ML世界中有模型并行和数据并行,当你使用 Tensorflow 或 PyTorch 时,你就会知道它们背后的场景。因此,在实现自己的数据加载器或模型训练器时,您可能会编写更好的代码。如果您主要使用预先训练的模型,或 icon