中台数据工程

     

批处理与事件流区别?

412

随着数据成为现代企业中越来越重要的一部分,组织经常发现自己需要处理大量数据。处理数据的两种常见方法是批处理和事件流。 .

什么是 PageRank 算法?

842 2K

谷歌创始人拉里佩奇和谢尔盖布林需要 .

SQL 应该是数据工程管道的默认选择

683 3K

SQL 应该是新数据工程工作的首选。它坚固、快速、面向未来且可测试。稍加注意,它就会清晰易读。一个新的 SQL 引擎 - DuckDB - 使 SQL 与其.

Netflix可扩展的数据注释服务

724 4K

在Netflix,我们有数百个微型服务,每个都有自己的数据模型或实体。例如,我们有一个存储电影实体元数据的服务或一个存储图像元数据的服务。 所有这些服.

数据库视图的用处 - Reddit

870

数据库视图只是伪装成表的查询。 数据表主要记录数据。视图产生从该数据派生的信息。 下面是几个用途: <.

数据管道设计模式

1105 6K
通常,数据是分步处理、提取和转换的。因此,一系列数据处理阶段可以称为数据流水线。 选择哪种 .

使用 Apache Beam 和 Cookiecutter 启用自助服务数据平台

725 2K

在本文中,讨论了Achievers 的领域团队如何能够通过利用 PyPi Cookiecutter 引导 Apache Beam 管道? .

面向数据设计带来更好的性能

985 2K

通过将应用数据放置在后续内存区域中获得更高性能。这使得CPU更容易加载和工作。 经典的 .

Apache Kafka在实时物流、运输行业运用

949 5K

物流、航运和运输需要实时信息来构建高效的应用程序和创新的业务模型,通过数据流支持相关的决策、建议和警报。 这篇博文.

使用Flink实现Exactly-Once分布式事务 - Devora

885 5K
分布式有状态流处理具有挑战性,尤其是在处理故障和恢复方面。在流处理中,最常被问到的问题之一是“我的流处理系统是否保证每条记录都被处理一次且仅一次,即使在处理.

查询引擎的工作原理

946 2K

查询引擎是一种软件,可以对数据执行查询以生成问题的答案,例如: 今年到目前为止,我每月的平均销售额是多少? 过去一天我网站上.

cdc-file-transfer:从Windows同步文件到Linux的传输工具

971

这个存储库包含用于将文件从 Windows 同步和流式传输到 Linux 的工具。它们基于内容定义分块 (CDC),特别是  .

Polars 和 Pandas 性能比较 - kevinheavey

905

这是基于Tom Augsburger的 .

幽默:你的SQL语法有错!

949
你的SQL语法有错误,当你想搞清楚是什么错时,没有下文了。 .

如何在 Flink 中处理数据倾斜?

983 4K

数据倾斜是指数据集的不平衡分布。这种不平衡通常是通过特定指标或领域的镜头观察到的。我们可以说一个国家的人口数据集在按人口中心分组时是有偏差的(假设更多的人住.

2022年的数据库:回顾一年 - Andy Pavlo

914 3K

又是一年过去了,而我还活着。因此,现在是反思去年在数据库世界中发生的事情的绝佳时机。由于DBMS供应商之间的基准战争已经平静下来,街上很安静。我在写去年的回.

datafaker: 为Java测试提供假数据

854

如何为应用程序生成假数据,例如用于演示目的?推荐使用 Datafaker 库: 为 JVM(Java、Kotlin、Groovy)生成假数据从未如此简.

零ETL方法是数据工程师的终结吗?

732

新的基于云的 SaaS 服务让一切变得简单。人们可以想象 IT 服务和数据湖,就像可以很容易地从插座中获取电力一样。这真的这么简单,以至于这些服务在未来甚至.

2023年流Stream预测 - tspann

826

Apache Pulsar、Apache Flink SQL as a Service、Apache Pinot等流Stream架构技术预测: .

Apache Pinot、Kafka 和 Presto实现低延迟、高吞吐量的面向用户的分析

1165 2K

Apache Pinot 是一个实时分布式 OLAP 数据存储,专为低延迟、高吞吐量分析而构建,非常适合面向用户的分析工作负载。Pinot 携手 Kafka.

数据库页Page详解

1547 4K
数据库通常使用固定大小的页来存储数据。表、集合、行、列、索引、序列、文档等最终以页中的字节结束。这样存储引擎就可以从负责数据格式和 API 的数据库前端中分.

什么是函数式数据工程?

1106 1 6K

数据建模一直是 .

Auto Trader如何构建实时的客户数据搜索平台?

828 4K

Auto Trader的CDP是一个专门构建的实时数据库,它从我们的行为数据平台 .

Java流比pyspark性能提高了几十倍 - Reddit

876 2K

我试图在一些大 CSV 文件的每一行上运行一些自定义逻辑,大约 10 GB数据。 尝试过 python 数据帧、python 中的多处理、pyspar.

信息检索的几种方法

2041

信息检索 (IR) 是针对给定问题或查询从可用资源集合中获取相关资源的过程。查询基本上是一组用于在任何平台上搜索资源的关键字。您向 IR 系统提出查询,您将.

数据帧比较:Polars vs. Spark vs. Pandas vs. DataFusion性能对比

1415

在 Spark 真正成为主流之前,数据科学家仍在大量使用 Pandas。现在每个人都想要一块 DataFrame 蛋糕! .

为什么每个人都想杀死 Airflow?

1165 1 2K

Airflow 可能是过去十年中 Top 5 突破性数据技术之一。作者通过比较 Airflow 的一些优缺点来描述当今编排引擎的竞争格局。 .

构建微服务分布式作业调度器 - Mesut

1333 1 7K
本文将帮助您以您可以配置的标准方式自动化您的工作。它还可以通过各种方式触发您的作业并执行您的业务代码。调度作业的方法有很多,包括cron 作业和Window.

如何构建连接数据目录? - Tony

869 7K

如何将组织中的所有数据连接在一起,同时将数据还能留在原处? 什么是数据目录? .

数据工具本身不是问题,问题在于流程和人员 - angadsg

883

在过去的十年中,数据工具有了 "寒武纪大爆炸"。每个数据工具都在不同的层面上解决了一个新的问题--但在我看来,"数据驱动的决策 "这个最终的问题与其说是由B.