ApacheSpark大数据工具
Apache Flink 是实时流处理的行业标准

在 Decodable,我们长期以来一直认为 Apache Flink 是最好的流处理系统,在满足世界上一些最大和最复杂的企业(如 Netflix、Uber、Stripe 等)的需求方面有着良好的记... 详细
揭密Tweepcred:Twitter推荐引擎背后的力量

您已经在 Twitter 上看到一些人具有某种影响力,他们的推文以近乎神奇的效率获得点赞、转发和回复。但是你有没有想过这种影响力是什么? 今天,我们将深入 Tweepcred 的神秘世界,这是计算... 详细
数据帧比较:Polars vs. Spark vs. Pandas vs. DataFusion性能对比

在 Spark 真正成为主流之前,数据科学家仍在大量使用 Pandas。现在每个人都想要一块 DataFrame 蛋糕! GitHub 上提供测试代码。 我不会深入探讨这些工具中的每一个,除... 详细
Snowflake和Databricks比较 - John

应该选择 Snowflake 还是 Databricks? Snowflake 和 Databricks 都是很棒的组织。他们发明或重新发明了数据管理行业。我不会贬低他们的任何技术、人员或流程。然而... 详细
使用 Spark 优化加速大数据处理 - Gaurav

Apache Iceber能将Amazon S3 成本降低了 90%

与Apache Hive 相比,新一代数据湖表格式( Apache Hudi 、 Apache Iceberg 和 . 详细
在 Data Lakehouse 中统一批处理和流处理

最近,我们在 ALTEN 的一位客户表示希望开始从他们的操作系统中提取和集中数据。从分析的角度来看,他们的信息环境处于未开发状态。这为创建集中式分析平台留下了许多 架构 选项。 我们对数据处理的... 详细
批处理中的数据质量如何保证? - Weingarten

下面是我在尼尔森工作时的实现,这在 Airflow 中使用 Soda 来实施数据质量检查的 博客 类似。 当我在尼尔森时,还没有一个数据质量的总体框架或平台,所以我们“开发”的只是内部供我们自己使... 详细
Claimforce为何使用湖仓统一数据湖和数据仓库?

在 Claimforce,我们最初的大数据方法是一个两层 架构 ,包括 Amazon S3 中的数据湖阶段和 Amazon Redshift 中的数据仓库阶段( 此处 概述)。随着时间的推移,我... 详细
数据摄取的 7 个最佳实践

“数据工程是 2022 年最性感的新工作”它在需求和职业机会方面已经超过了数据科学。 如果您还没有看到对数据工程的需求呈天文数字增长,那么您很可能在过去 2 年都生活在山洞里。 到底是什么炒作? 为... 详细
Eats数据平台:用数据赋能企业

Velox 简介:数据平台统一执行引擎

Meta 撰写了有关 Velox 的文章,这是其用于数据工作负载的开源统一执行引擎。该项目是一个令人兴奋的项目 它正在远离默认的基于 JVM 的执行引擎,带有 Spark 和 Presto,但提... 详细
沃尔玛如何使用 Apache Hudi 和 Spark 实现 SCD-2(渐变维度)?

数据是当今分析世界的宝贵资产。在向最终用户提供数据时,跟踪数据在一段时间内的变化非常重要。渐变维度 (SCD) 是随时间推移存储和管理当前和历史数据的维度。 在 SCD 的类型中,我们将特别关注类型... 详细
SPL: 专门处理开放格式文件 (txt/csv/json/xml/xls)的Java库

在 Java 应用程序中处理 txt、csv、json、xml 和 xls 等开放格式的数据文件是很常见的。Java 中的硬编码非常复杂,因此我们经常求助于某些现成的开源包。但每个包都有其弱点。 ... 详细