中台数据工程教程 - 第3页

GraalPy是适用于 Java 的高性能可嵌入 Python 3 运行时：在 Java 中直接加载和使用 Python 包运行最新的 Python AI 和数据科学包

如今，Apache Iceberg 已成为实现数据湖的热门选择。它提供快照、隐藏分区和就地数据表演化等功能。本教程将讨论Apache Iceberg，这是当今大数据领域流行的开放表格式。我们将通过开源发行版的

这篇文章由 Timescale 公司发布，讨论了在插入大量数据时，如何通过使用 UNNEST 函数来提高性能，有时甚至可以提高50%。 COPY 命令通常比 INSERT 更快，但许多开发者仍然偏好 INSERT，因为它更灵活，支持如 upsert

media - organic为什么 Rust 成为编写数据库和流处理引擎等高性能系统的最佳选择。编者注：本文由 P99 CONF 24 发言人 Micah Wylde 撰写。他将讨论“延迟、吞吐量和容错：设计 Arroyo 流引擎”。

今天，我们很高兴发布pg_parquet - 一个用于处理 Parquet 文件的开源 Postgres 扩展。该扩展可以从 Postgres

Go语言通用任务并行编程框架，带有集成的可视化工具和分析器一个类似于 taskflow 的通用任务并行编程框架，带有一个用于 Go 的集成可视化器和分析器，受

在本教程中，我们通过提供架构和命令行示例了解了 Logstash 和 Kafka 的工作原理。我们了解了它们的主要用途，并通过描述它们的主要组件描述了它们最适合的实际用途。最后，我们了解了这两个系统之间的主要区别以及它们如何协同工作。 Logstash 和

在本文中，我们探讨了使用 Stream API 操作ResultSet的几种方法。这种方法在处理无法一次性加载到内存中的大型数据集时特别有用。此外，如果我们在应用程序中遵循函数式风格，流式存储库将与我们的逻辑很好地保持一致。遍历ResultSet是从 J

鉴于事件在事件驱动架构中扮演着如此重要的角色，人们对事件中应包含的内容却缺乏一致的看法。这可能源于这样一个事实：根据你的观点，事件可以实现不同的目的。在遵循当代风格的事件驱动架构的系统中，微服务通过发出和订阅事件进行协作。（请注意，本文仅

有趣的项目、工具和库 Laminar面向人工智能代理/RAG 应用程序的开源 D

在本文中，我们探讨了使用 Spring Batch 运行多个作业的一些方法。通过理解本文中使用的基本示例，我们可以设计一个更高效、可扩展且更易于维护的批处理系统。 Spring Batch是一个强大的框架，通过提供可重用的组件和可靠的基础架构，可以轻松处理

在数据工程领域，了解数据管道和ETL（提取、转换、加

Drasi 是一个数据处理平台，可简化检测数据变化并立即采取行动的过程。它是一种全面的解决方案，提供内置功能来跟踪特定事件的系统日志和更改源、评估它们的相关性并自动启动适当的反应。请访问我们的文档网站

在本文中，我们研究了如何创建包含对象列表的 Avro 模式shcema。此外，我们还详细介绍了如何使用子记录的列表属性定义父记录。这是我们在 Avro 中表示复杂数据结构的一种方式。此外，当我们需要处理对象集合或分层数据时，这特别有用。最后，Avro 模式非常灵活，我们可以配置它

一篇由Jack Vanlightly撰写的博客文章，标题为“Dismantling ELT: The Case for Graphs, Not Silos”。这篇文章探讨了数据架构中的ELT（提取、加载、转换）流程，以及它如何受到Conway定律的影响，导致软件开发和数据分析团队之间的隔阂。

一个 Java 库，用于根据列名和数据匹配自动检测数据库表之间的关系。非常适合 OLTP 数据，因为 RDBMS 级别可能不存在物理关系。用户可以配置列名和数据匹配置信度阈值来微调结果。自动关系查找器 (ARF)是一个 Java 库，它通过分析列

用例假设您有一个包含大量联系人信息的 CSV 文件，需要将其迁移到数据库。这可能是用于客户管理系统、电子邮件营销平台或任何其他必须有效存储和管理联系人详细信息的应用程序。我们可以利用 Go 中的并发来加快这一过程，而不是逐个处理每个联系人，因为这可能很慢且效率低下。并发让我们可以同时处理多个

在本文中，我们探讨了 Apache Hadoop，这是一个提供可扩展且高效的解决方案来管理和处理大数据的框架——这在当今数据驱动的世界中至关重要。我们首先讨论其核心组件，包括 HDFS、YARN 和 MapReduce，然后介绍设置 Hadoop 集群的