Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
中台数据工程教程
数据Redpanda平台简介
Redpanda 是一个开源流媒体平台,旨在快速、可扩展且可靠,满足现代数据密集型应用程序的需求。它提供了与 Apache Kafka 兼容的 API,可以轻松迁移现有应用程序。本文将探讨 RedPanda,了解其基础知识,并演示如何使用 Java 来利用其功能。
Postgres正在蚕食数据库世界
PostgreSQL 不仅仅是一个简单的关系数据库;它是一个数据管理框架,有可能吞没整个数据库领域。 “一切皆用 Postgres”的趋势不再局限于少数精英团队,而是正在成为主流最佳实践。
Arroyo:基于Arrow和DataFusion的新SQL引擎
Arroyo 0.10 拥有一个使用 Apache Arrow 和 DataFusion 构建的全新 SQL 引擎。它更快、更小、更容易运行。 这篇文章将详细介绍 Arroyo 当前的实现以及为什么会发生变化,但简而言之: 性能:A
Pinterest 弃用 HBase
Pinterest 工程团队的博客文章“Pinterest 弃用 HBase”概述了 Pinterest 弃用分布式 NoSQL 数据库 Apache HBase 并迁移到开源分布式 SQL 数据库 TiDB 的历程。 为何弃用 HBase
DuckDB简介
DuckDB是一个内存分析型关系数据库,主要用于数据分析。由于其列式存储性质(单独存储每列的数据),它被视为分析数据库。相比之下,传统的关系数据库采用基于行的存储,逐行存储数据。 DuckDB 的优点包括: 快速查询——DuckDB利用列式
2024年数据中台工程十大趋势
在当今世界,创新和决策需要实时数据管道和实时数据处理,对数据工程领域的重视程度日益增加。数据工程提供了许多工具和方法,持续为公司提供有关如何克服所面临挑战的见解。 什么是数
使用 Apache Fury 实现极快的序列化
在本文中,我们将了解Apache 软件基金会下的一个孵化项目Apache Fury。该库承诺提供极快的性能、强大的功能和多语言支持。 我们将研究该项目的一些基本功能并将其性能与其他框架进行比较。
比较 Pandas、Polars 和 PySpark:基准分析
比较 Pandas、Polars 和 PySpark 三种工具的不同数据集,得出数据处理未来发展方向的结论。 PandasPandas 一直是数据操作、探索和分析的主要工具。由于 Pandas 与 R 网格视图的相
Maestro:Netflix 开源工作流编排器
我们很高兴地宣布,Maestro 源代码现已向公众开放!请访问Maestro GitHub 存储库开始使用
实时数据处理:Kafka 和 Flink
在大数据时代,实时洞察是保持领先的关键。但是如何利用不断流动的数据流的力量呢? Apache Kafka 和 Apache Flink登场,这对实时数据处理带来革命性变革的梦之队。 这对充满活力的二人组协同工作,
PySpark DataFrame教程与演示
PySpark DataFrame 是 PySpark 库中的基本抽象,专为分配的记录处理和操作而设计。它是 Apache Spark 生态系统的重要组成部分,提供了一种强大且绿色的方式来大规模处理结构化信息。 PySpark DataFrame 建立在
使用Pandas IO工具流式传输源数据
在当今数据驱动的世界中,有效处理流数据的能力变得越来越重要。无论您是处理实时传感器读数、金融市场更新还是社交媒体源,能够在数据到达时对其进行处理都可以提供有价值的见解并实现及时决策。 Pandas 库是 Python 中处理流数据的一种强大工具,它提供了多
Java中大数据生态和4个工具介绍
大数据 和 Java 形成强大的协同作用。大数据以其高 容量、 高速度和 多样性为特征,已成为各行业的游戏规则改变者。</
Apache Pinot 简介
Apache Pinot最初由 LinkedIn 开发,是一个实时分布式OLAP(在线分析处理)数据存储,旨在为分析查询提供低延迟和高吞吐量。在本文中,我们将探索 Apache Pinot 的主要功能和架构,并学习如何与其交互。 什么是 A
Scikit-learn可扩展学习简介
随着机器学习模型变得越来越复杂和数据集变得越来越大,可扩展性成为从业者和研究人员的一个重要关注点。虽然 Python 的 scikit-learn 库提供了广泛的机器学习算法,但其有效处理大型数据集的可扩展性一直是人们感兴趣的话题。在这篇博文中,我们将探索使用 scikit-learn 实现可扩展学
使用 C# 和 EF Core 进行快速 SQL 批量插入
无论您是构建数据分析平台、迁移遗留系统还是引入大量新用户,都可能会需要在数据库中插入大量数据。 一张一张地放入唱片的感觉就像看着油漆慢慢变干一样。传统的方法行不通。 因此,了解使用 C# 和 EF Core 的快
数据管道架构概述
在当今数据驱动的世界中,组织高度依赖对大量数据的有效处理和分析,以获得洞察力并做出明智的决策。这种能力的核心是数据管道——现代数据基础设施的重要组成部分。数据管道是数据从各种来源无缝移动到指定目的地的通道,促进其在此过程中的转换、处理和存储。 来自各种来源
什么是反向 ETL?概述、用例和主要优点
在不断发展的数据工程领域,反向 ETL 已成为企业利用其数据仓库和其他数据平台超越传统分析的关键流程。反向 ETL 或反向“提取、转换、加载”是将数据从集中式数据仓库或数据湖移动到数据管道内的操作系统和应用程序的过程。这使企业能够将其分析操作化,通过将数据反馈到最需要它的日常工作流程和系统中,使数据
上页
下页
关闭