数据工程
什么是 PageRank 算法?

谷歌创始人拉里佩奇和谢尔盖布林需要 一种算法来对页面进行排名 并为用户提供最佳搜索结果:PageRank算法。 使用 PageRank 算法,每个页面都会根据链接到它的其他页面的数量和重要性获得排... 详细
SQL 应该是数据工程管道的默认选择

SQL 应该是新数据工程工作的首选。它坚固、快速、面向未来且可测试。稍加注意,它就会清晰易读。一个新的 SQL 引擎 - DuckDB - 使 SQL 与其他高性能数据框架库竞争,使 SQL 成为各... 详细
Netflix可扩展的数据注释服务

在Netflix,我们有数百个微型服务,每个都有自己的数据模型或实体。例如,我们有一个存储电影实体元数据的服务或一个存储图像元数据的服务。 所有这些服务在以后都想对他们的对象或实体进行注释。 我们的... 详细
数据库视图的用处 - Reddit

数据库视图只是伪装成表的查询。 数据表主要记录数据。视图产生从该数据派生的信息。 下面是几个用途: 1、抽象 也许您必须连接来自数十个不同表的数据才能获得特定类型报告所需的所有数据。因此,您... 详细
使用 Apache Beam 和 Cookiecutter 启用自助服务数据平台

在本文中,讨论了Achievers 的领域团队如何能够通过利用 PyPi Cookiecutter 引导 Apache Beam 管道? 在Achievers,我们正在建立一个自我服务的数据平台,... 详细
面向数据设计带来更好的性能

通过将应用数据放置在后续内存区域中获得更高性能。这使得CPU更容易加载和工作。 经典的 面向对象 编程 (OOP) 将其数据放在内存中,就像意大利肉酱面一样——对象和指针都混在一起了。这很好,... 详细
Apache Kafka在实时物流、运输行业运用

物流、航运和运输需要实时信息来构建高效的应用程序和创新的业务模型,通过数据流支持相关的决策、建议和警报。 这篇博文探讨了 Kafka在USPS、瑞士邮政、奥地利邮政、DHL 和 Hermes 等公... 详细
使用Flink实现Exactly-Once分布式事务 - Devora

cdc-file-transfer:从Windows同步文件到Linux的传输工具

这个存储库包含用于将文件从 Windows 同步和流式传输到 Linux 的工具。它们基于内容定义分块 (CDC),特别是 FastCDC ,将文件分成块。 谷歌开发了两个工具cdc_rsync和... 详细
Polars 和 Pandas 性能比较 - kevinheavey

这是基于Tom Augsburger的 Modern Pandas的 和 Pandas 数据框库的并排比较。 (Polars 是一个非常快速和优雅的数据框库,它可以做 Pandas 所做的相同类型... 详细
幽默:你的SQL语法有错!

如何在 Flink 中处理数据倾斜?

数据倾斜是指数据集的不平衡分布。这种不平衡通常是通过特定指标或领域的镜头观察到的。我们可以说一个国家的人口数据集在按人口中心分组时是有偏差的(假设更多的人住在几个大城市,而其他地方的人口较少)。 ... 详细
2022年的数据库:回顾一年 - Andy Pavlo

又是一年过去了,而我还活着。因此,现在是反思去年在数据库世界中发生的事情的绝佳时机。由于DBMS供应商之间的基准战争已经平静下来,街上很安静。我在写去年的回顾时很开心,所以我很高兴能与你分享2022... 详细