• 通过流处理,我们可以在数据可用时持续处理数据我们以事件流的形式从事件源(例如数据库)实时捕获数据,并将数据移动到目标系统(例如数据仓库和数据库)。 什么是事件?事件就是你将数据概念化的时候。我这么说是什么意思?考虑一下下面的
  • 1、Java正则表达式备忘录,一张图网尽正则表达式: icon
  • Apache Flink与Kafka Stream都能实现流处理,但在一些重要方面有所不同。下面是从用户的角度出发的,不涉及实现细节: 支持的流平台不同 作为的Apache Kafka项目的 icon
  • Apache Pulsar、Apache Flink SQL as a Service、Apache Pinot等流Stream架构技术预测: Apache Pulsar2023年,Pulsar的新版本将提 icon
  • 通常,数据是分步处理、提取和转换的。因此,一系列数据处理阶段可以称为数据流水线。 选择哪种设计模式? 有很多事情需要考虑,即使用哪个数据栈?需要考虑哪些工具?如何从概念上设计数据管道?ETL 还是 ELT icon
  • 长期以来,在有状态流处理器和流数据库之间进行选择一直是一个有争议的问题。一个流处理应用程序是一个DAG(直接无环图),其中每个节点是一个处理步骤。你通过编写单独的处理函数来编写DAG,这些函数在数据流经过它们时执行操作。这些函数可以是无状态的操作,如转换或过滤,也可以是有状态 icon
  • 这个存储库包含用于将文件从 Windows 同步和流式传输到 Linux 的工具。它们基于内容定义分块 (CDC),特别是  icon
  • 当且仅当原始结构派生Serialize和Deserialize特征时,可以使用bincode将它们序列化为 binary-encoded Vec。< icon
  • 物流、航运和运输需要实时信息来构建高效的应用程序和创新的业务模型,通过数据流支持相关的决策、建议和警报。 这篇博文探讨了 Kafka在USPS、瑞士邮政、奥地利邮政、DHL 和 Hermes 等公司的几个真实案例研究,用例包括云原生中间件现代化、跟 icon
  • Wayang 使用户能够在多个数据处理平台上运行数据分析。为此,Wayang 在现有平台之上提供了一个抽象,以便在任何平台集之上运行数据分析任务。因此,用户可以专注于其应用程序的逻辑,而不是底层平台的复杂性。Apache Wayang 是 5 年综合研究的成果,已经发表了十几篇论文, icon
  • 我试图在一些大 CSV 文件的每一行上运行一些自定义逻辑,大约 10 GB数据。尝试过 python 数据帧、python 中的多处理、pyspark。他们都没有在可接受的时间内完成。然后我发现了java流。我有一个使用 pyspark 需要 70 分钟的工作流程。使用 Ja icon
  • Go 1.18 刚刚发布,这意味着 Go 现在正式支持泛型。出于好奇,我决定研究创建一个实现类似于 Java 流的库。我的简单实现的目标是支持使用两个操作处理切片的元素:映射和过滤。如果您只想查看代码,则可以 icon
  • 事件溯源是一种设计模式,其中业务操作的结果存储为一系列事件。这是持久化数据的另一种方式。与仅保留最新版本的实体状态的面向状态的持久性相比,事件溯源将每个状态更改存储为单独的事件。谢谢你,没有业务数据丢失。每个操作都会产生存储在数据库中的事件。这可以实现扩展的审计和诊断功能(技 icon
  • 让我们从一个例子开始:在 Advent of Code 2022 day 1 中,我们有一组数字的字符串,看起来像: icon
  • 最近,我们在 ALTEN 的一位客户表示希望开始从他们的操作系统中提取和集中数据。从分析的角度来看,他们的信息环境处于未开发状态。这为创建集中式分析平台留下了许多架构选项。我们对数据处理的主要要求包括: 1)平台必须具有高度的变化灵活性,支持不同类型的结构化和非结构化 icon
  • 在本文中,我想讨论实现 CDC 的几种不同方法,以及一些关键应用程序是什么以及 CDC 如何融入现代数据流架构的大局。 有几种从数据库中提取变更事件的方法,每一种都有自己的优点和缺点。因此,让我们仔细看看每种方法。   icon
  • 随着数据成为现代企业中越来越重要的一部分,组织经常发现自己需要处理大量数据。处理数据的两种常见方法是批处理和事件流。 批处理 批处理涉及通常在预定的时间间隔(例如每天或每周)内一次处理数据。 常用于不需要实时处理的任务和可以 icon