数据工程

  
共有 3461 2 3 4 ... 24 下一页

什么是 PageRank 算法?

23-02-06 107 2k

谷歌创始人拉里佩奇和谢尔盖布林需要 一种算法来对页面进行排名 并为用户提供最佳搜索结果:PageRank算法。 使用 PageRank 算法,每个页面都会根据链接到它的其他页面的数量和重要性获得排... 详细

SQL 应该是数据工程管道的默认选择

23-01-31 285 3k

SQL 应该是新数据工程工作的首选。它坚固、快速、面向未来且可测试。稍加注意,它就会清晰易读。一个新的 SQL 引擎 - DuckDB - 使 SQL 与其他高性能数据框架库竞争,使 SQL 成为各... 详细

Netflix可扩展的数据注释服务

23-01-28 357 4k

在Netflix,我们有数百个微型服务,每个都有自己的数据模型或实体。例如,我们有一个存储电影实体元数据的服务或一个存储图像元数据的服务。 所有这些服务在以后都想对他们的对象或实体进行注释。 我们的... 详细

数据库视图的用处 - Reddit

23-01-28 358 1k

数据库视图只是伪装成表的查询。 数据表主要记录数据。视图产生从该数据派生的信息。 下面是几个用途: 1、抽象 也许您必须连接来自数十个不同表的数据才能获得特定类型报告所需的所有数据。因此,您... 详细

数据管道设计模式

23-01-23 607 5k
通常,数据是分步处理、提取和转换的。因此,一系列数据处理阶段可以称为数据流水线。 选择哪种 设计模式 ? 有很多事情需要考虑,即使用哪个数据栈?需要考虑哪些工具?如何从概念上设计数据管道?E... 详细

使用 Apache Beam 和 Cookiecutter 启用自助服务数据平台

23-01-23 498 2k

在本文中,讨论了Achievers 的领域团队如何能够通过利用 PyPi Cookiecutter 引导 Apache Beam 管道? 在Achievers,我们正在建立一个自我服务的数据平台,... 详细

面向数据设计带来更好的性能

23-01-20 581 2k

通过将应用数据放置在后续内存区域中获得更高性能。这使得CPU更容易加载和工作。 经典的 面向对象 编程 (OOP) 将其数据放在内存中,就像意大利肉酱面一样——对象和指针都混在一起了。这很好,... 详细

Apache Kafka在实时物流、运输行业运用

23-01-18 611 4k

物流、航运和运输需要实时信息来构建高效的应用程序和创新的业务模型,通过数据流支持相关的决策、建议和警报。 这篇博文探讨了 Kafka在USPS、瑞士邮政、奥地利邮政、DHL 和 Hermes 等公... 详细

使用Flink实现Exactly-Once分布式事务 - Devora

23-01-14 591 5k
分布式有状态流处理具有挑战性,尤其是在处理故障和恢复方面。在流处理中,最常被问到的问题之一是“我的流处理系统是否保证每条记录都被处理一次且仅一次,即使在处理过程中遇到一些故障?” 通过“ exac... 详细

查询引擎的工作原理

23-01-11 589 2k

查询引擎是一种软件,可以对数据执行查询以生成问题的答案,例如: 今年到目前为止,我每月的平均销售额是多少? 过去一天我网站上最受欢迎的五个网页是什么? 网络流量与上一年相比如何逐月比较? ... 详细

cdc-file-transfer:从Windows同步文件到Linux的传输工具

23-01-10 603 1k

这个存储库包含用于将文件从 Windows 同步和流式传输到 Linux 的工具。它们基于内容定义分块 (CDC),特别是  FastCDC ,将文件分成块。 谷歌开发了两个工具cdc_rsync和... 详细

Polars 和 Pandas 性能比较 - kevinheavey

23-01-07 552

这是基于Tom Augsburger的 Modern Pandas的 和 Pandas 数据框库的并排比较。 (Polars 是一个非常快速和优雅的数据框库,它可以做 Pandas 所做的相同类型... 详细

幽默:你的SQL语法有错!

23-01-06 658
你的SQL语法有错误,当你想搞清楚是什么错时,没有下文了。 网友回答: 1、有这样SQL管理开发ssms工具存在,只是运行再本机。您不需要 SQL complete 或 red gate。它... 详细

如何在 Flink 中处理数据倾斜?

23-01-05 577 3k

数据倾斜是指数据集的不平衡分布。这种不平衡通常是通过特定指标或领域的镜头观察到的。我们可以说一个国家的人口数据集在按人口中心分组时是有偏差的(假设更多的人住在几个大城市,而其他地方的人口较少)。 ... 详细

2022年的数据库:回顾一年 - Andy Pavlo

23-01-03 572 3k

又是一年过去了,而我还活着。因此,现在是反思去年在数据库世界中发生的事情的绝佳时机。由于DBMS供应商之间的基准战争已经平静下来,街上很安静。我在写去年的回顾时很开心,所以我很高兴能与你分享2022... 详细