中台数据工程教程 - 第4页

Postgres正在蚕食数据库世界

PostgreSQL 不仅仅是一个简单的关系数据库；它是一个数据管理框架，有可能吞没整个数据库领域。 “一切皆用 Postgres”的趋势不再局限于少数精英团队，而是正在成为主流最佳实践。

数据Redpanda平台简介

Redpanda 是一个开源流媒体平台，旨在快速、可扩展且可靠，满足现代数据密集型应用程序的需求。它提供了与 Apache Kafka 兼容的 API，可以轻松迁移现有应用程序。本文将探讨 RedPanda，了解其基础知识，并演示如何使用 Java 来利用其功能。

DuckDB简介

DuckDB是一个内存分析型关系数据库，主要用于数据分析。由于其列式存储性质（单独存储每列的数据），它被视为分析数据库。相比之下，传统的关系数据库采用基于行的存储，逐行存储数据。 DuckDB 的优点包括：快速查询——DuckDB利用列式

Maestro：Netflix 开源工作流编排器

我们很高兴地宣布，Maestro 源代码现已向公众开放！请访问Maestro GitHub 存储库开始使用

使用 Apache Fury 实现极快的序列化

在本文中，我们将了解Apache 软件基金会下的一个孵化项目Apache Fury。该库承诺提供极快的性能、强大的功能和多语言支持。我们将研究该项目的一些基本功能并将其性能与其他框架进行比较。

Arroyo：基于Arrow和DataFusion的新SQL引擎

Arroyo 0.10 拥有一个使用 Apache Arrow 和 DataFusion 构建的全新 SQL 引擎。它更快、更小、更容易运行。这篇文章将详细介绍 Arroyo 当前的实现以及为什么会发生变化，但简而言之：性能：A

比较 Pandas、Polars 和 PySpark：基准分析

比较 Pandas、Polars 和 PySpark 三种工具的不同数据集，得出数据处理未来发展方向的结论。 PandasPandas 一直是数据操作、探索和分析的主要工具。由于 Pandas 与 R 网格视图的相

Pinterest 弃用 HBase

Pinterest 工程团队的博客文章“Pinterest 弃用 HBase”概述了 Pinterest 弃用分布式 NoSQL 数据库 Apache HBase 并迁移到开源分布式 SQL 数据库 TiDB 的历程。为何弃用 HBase

Apache Pinot 简介

Apache Pinot最初由 LinkedIn 开发，是一个实时分布式OLAP（在线分析处理）数据存储，旨在为分析查询提供低延迟和高吞吐量。在本文中，我们将探索 Apache Pinot 的主要功能和架构，并学习如何与其交互。什么是 A

使用 C# 和 EF Core 进行快速 SQL 批量插入

无论您是构建数据分析平台、迁移遗留系统还是引入大量新用户，都可能会需要在数据库中插入大量数据。一张一张地放入唱片的感觉就像看着油漆慢慢变干一样。传统的方法行不通。因此，了解使用 C# 和 EF Core 的快

Pandas 3 将强制使用写时复制来改善内存和性能

Pandas 3.0 版将默认实现写时复制 (CoW：Copy-on-Write：写时复制)。从 Pandas 2.0 版本开始，CoW开始生效但尚未完全实现。 Pandas 3将强制通过CoW 实现的大多

数据管道架构概述

在当今数据驱动的世界中，组织高度依赖对大量数据的有效处理和分析，以获得洞察力并做出明智的决策。这种能力的核心是数据管道——现代数据基础设施的重要组成部分。数据管道是数据从各种来源无缝移动到指定目的地的通道，促进其在此过程中的转换、处理和存储。来自各种来源

什么是反向 ETL？概述、用例和主要优点

在不断发展的数据工程领域，反向 ETL 已成为企业利用其数据仓库和其他数据平台超越传统分析的关键流程。反向 ETL 或反向“提取、转换、加载”是将数据从集中式数据仓库或数据湖移动到数据管道内的操作系统和应用程序的过程。这使企业能够将其分析操作化，通过将数据反馈到最需要它的日常工作流程和系统中，使数据

使用Pandas IO工具流式传输源数据

在当今数据驱动的世界中，有效处理流数据的能力变得越来越重要。无论您是处理实时传感器读数、金融市场更新还是社交媒体源，能够在数据到达时对其进行处理都可以提供有价值的见解并实现及时决策。 Pandas 库是 Python 中处理流数据的一种强大工具，它提供了多

PySpark DataFrame教程与演示

PySpark DataFrame 是 PySpark 库中的基本抽象，专为分配的记录处理和操作而设计。它是 Apache Spark 生态系统的重要组成部分，提供了一种强大且绿色的方式来大规模处理结构化信息。 PySpark DataFrame 建立在

Scikit-learn可扩展学习简介

随着机器学习模型变得越来越复杂和数据集变得越来越大，可扩展性成为从业者和研究人员的一个重要关注点。虽然 Python 的 scikit-learn 库提供了广泛的机器学习算法，但其有效处理大型数据集的可扩展性一直是人们感兴趣的话题。在这篇博文中，我们将探索使用 scikit-learn 实现可扩展学

实时数据处理：Kafka 和 Flink

在大数据时代，实时洞察是保持领先的关键。但是如何利用不断流动的数据流的力量呢？ Apache Kafka 和 Apache Flink登场，这对实时数据处理带来革命性变革的梦之队。这对充满活力的二人组协同工作，

Java中大数据生态和4个工具介绍

大数据和 Java 形成强大的协同作用。大数据以其高容量、高速度和多样性为特征，已成为各行业的游戏规则改变者。</