中台数据工程
批处理与事件流区别?

随着数据成为现代企业中越来越重要的一部分,组织经常发现自己需要处理大量数据。处理数据的两种常见方法是批处理和事件流。 .
什么是 PageRank 算法?

谷歌创始人拉里佩奇和谢尔盖布林需要 .
SQL 应该是数据工程管道的默认选择

SQL 应该是新数据工程工作的首选。它坚固、快速、面向未来且可测试。稍加注意,它就会清晰易读。一个新的 SQL 引擎 - DuckDB - 使 SQL 与其.
Netflix可扩展的数据注释服务

在Netflix,我们有数百个微型服务,每个都有自己的数据模型或实体。例如,我们有一个存储电影实体元数据的服务或一个存储图像元数据的服务。 所有这些服.
数据库视图的用处 - Reddit

数据库视图只是伪装成表的查询。 数据表主要记录数据。视图产生从该数据派生的信息。 下面是几个用途: <.
数据管道设计模式

使用 Apache Beam 和 Cookiecutter 启用自助服务数据平台

在本文中,讨论了Achievers 的领域团队如何能够通过利用 PyPi Cookiecutter 引导 Apache Beam 管道? .
面向数据设计带来更好的性能

通过将应用数据放置在后续内存区域中获得更高性能。这使得CPU更容易加载和工作。 经典的 .
Apache Kafka在实时物流、运输行业运用

物流、航运和运输需要实时信息来构建高效的应用程序和创新的业务模型,通过数据流支持相关的决策、建议和警报。 这篇博文.
使用Flink实现Exactly-Once分布式事务 - Devora

查询引擎的工作原理

查询引擎是一种软件,可以对数据执行查询以生成问题的答案,例如: 今年到目前为止,我每月的平均销售额是多少? 过去一天我网站上.
cdc-file-transfer:从Windows同步文件到Linux的传输工具

这个存储库包含用于将文件从 Windows 同步和流式传输到 Linux 的工具。它们基于内容定义分块 (CDC),特别是 .
Polars 和 Pandas 性能比较 - kevinheavey

这是基于Tom Augsburger的 .
幽默:你的SQL语法有错!

如何在 Flink 中处理数据倾斜?

数据倾斜是指数据集的不平衡分布。这种不平衡通常是通过特定指标或领域的镜头观察到的。我们可以说一个国家的人口数据集在按人口中心分组时是有偏差的(假设更多的人住.
2022年的数据库:回顾一年 - Andy Pavlo

又是一年过去了,而我还活着。因此,现在是反思去年在数据库世界中发生的事情的绝佳时机。由于DBMS供应商之间的基准战争已经平静下来,街上很安静。我在写去年的回.
datafaker: 为Java测试提供假数据

如何为应用程序生成假数据,例如用于演示目的?推荐使用 Datafaker 库: 为 JVM(Java、Kotlin、Groovy)生成假数据从未如此简.
零ETL方法是数据工程师的终结吗?

新的基于云的 SaaS 服务让一切变得简单。人们可以想象 IT 服务和数据湖,就像可以很容易地从插座中获取电力一样。这真的这么简单,以至于这些服务在未来甚至.
2023年流Stream预测 - tspann

Apache Pulsar、Apache Flink SQL as a Service、Apache Pinot等流Stream架构技术预测: .
Apache Pinot、Kafka 和 Presto实现低延迟、高吞吐量的面向用户的分析

Apache Pinot 是一个实时分布式 OLAP 数据存储,专为低延迟、高吞吐量分析而构建,非常适合面向用户的分析工作负载。Pinot 携手 Kafka.
数据库页Page详解

什么是函数式数据工程?

数据建模一直是 .
Auto Trader如何构建实时的客户数据搜索平台?

Auto Trader的CDP是一个专门构建的实时数据库,它从我们的行为数据平台 .
Java流比pyspark性能提高了几十倍 - Reddit

我试图在一些大 CSV 文件的每一行上运行一些自定义逻辑,大约 10 GB数据。 尝试过 python 数据帧、python 中的多处理、pyspar.
信息检索的几种方法

信息检索 (IR) 是针对给定问题或查询从可用资源集合中获取相关资源的过程。查询基本上是一组用于在任何平台上搜索资源的关键字。您向 IR 系统提出查询,您将.
数据帧比较:Polars vs. Spark vs. Pandas vs. DataFusion性能对比

在 Spark 真正成为主流之前,数据科学家仍在大量使用 Pandas。现在每个人都想要一块 DataFrame 蛋糕! .
为什么每个人都想杀死 Airflow?

Airflow 可能是过去十年中 Top 5 突破性数据技术之一。作者通过比较 Airflow 的一些优缺点来描述当今编排引擎的竞争格局。 .
构建微服务分布式作业调度器 - Mesut

如何构建连接数据目录? - Tony

如何将组织中的所有数据连接在一起,同时将数据还能留在原处? 什么是数据目录? .
数据工具本身不是问题,问题在于流程和人员 - angadsg

在过去的十年中,数据工具有了 "寒武纪大爆炸"。每个数据工具都在不同的层面上解决了一个新的问题--但在我看来,"数据驱动的决策 "这个最终的问题与其说是由B.