ApacheSpark大数据工具

  

Apache Flink 是实时流处理的行业标准

23-05-26 155

在 Decodable,我们长期以来一直认为 Apache Flink 是最好的流处理系统,在满足世界上一些最大和最复杂的企业(如 Netflix、Uber、Stripe 等)的需求方面有着良好的记... 详细

揭密Tweepcred:Twitter推荐引擎背后的力量

23-04-02 258 6k

您已经在 Twitter 上看到一些人具有某种影响力,他们的推文以近乎神奇的效率获得点赞、转发和回复。但是你有没有想过这种影响力是什么? 今天,我们将深入 Tweepcred 的神秘世界,这是计算... 详细

数据帧比较:Polars vs. Spark vs. Pandas vs. DataFusion性能对比

22-12-19 1053 1k

在 Spark 真正成为主流之前,数据科学家仍在大量使用 Pandas。现在每个人都想要一块 DataFrame 蛋糕! GitHub 上提供测试代码。 我不会深入探讨这些工具中的每一个,除... 详细

Druid:实时分析数据存储

22-12-04 1174 4k

Apache Druid是一个 开源 数据库,专为低延迟的近实时和历史数据分析而设计, Druid 被Netflix 、 . 详细

Snowflake和Databricks比较 - John

22-10-19 1028 1k

应该选择 Snowflake 还是 Databricks? Snowflake 和 Databricks 都是很棒的组织。他们发明或重新发明了数据管理行业。我不会贬低他们的任何技术、人员或流程。然而... 详细

使用 Spark 优化加速大数据处理 - Gaurav

22-10-17 661 7k
Apache Spark 是领先的开源数据处理引擎,用于批处理、机器学习、流处理和大规模 SQL(结构化查询语言)。它旨在使大数据处理更快、更容易。自诞生以来,Spark 作为一个大数据处理框架获得... 详细

Apache Iceber能将Amazon S3 成本降低了 90%

22-10-06 792 3k

与Apache Hive 相比,新一代数据湖表格式( Apache Hudi 、 Apache Iceberg 和 . 详细

在 Data Lakehouse 中统一批处理和流处理

22-10-04 468 3k

最近,我们在 ALTEN 的一位客户表示希望开始从他们的操作系统中提取和集中数据。从分析的角度来看,他们的信息环境处于未开发状态。这为创建集中式分析平台留下了许多 架构 选项。 我们对数据处理的... 详细

批处理中的数据质量如何保证? - Weingarten

22-09-20 817 1k

下面是我在尼尔森工作时的实现,这在 Airflow 中使用 Soda 来实施数据质量检查的 博客 类似。 当我在尼尔森时,还没有一个数据质量的总体框架或平台,所以我们“开发”的只是内部供我们自己使... 详细

Claimforce为何使用湖仓统一数据湖和数据仓库?

22-09-18 1078 3k

在 Claimforce,我们最初的大数据方法是一个两层 架构 ,包括 Amazon S3 中的数据湖阶段和 Amazon Redshift 中的数据仓库阶段( 此处 概述)。随着时间的推移,我... 详细

数据摄取的 7 个最佳实践

22-09-09 826 3k

“数据工程是 2022 年最性感的新工作”它在需求和职业机会方面已经超过了数据科学。 如果您还没有看到对数据工程的需求呈天文数字增长,那么您很可能在过去 2 年都生活在山洞里。 到底是什么炒作? 为... 详细

Eats数据平台:用数据赋能企业

22-09-05 932 4k
在线食品订购和配送是一个竞争激烈的市场,速度是生存的关键。Coupang Eats(简称Eats)是韩国电商巨头Coupang的外卖子公司。 在这篇文章中,我们将详细介绍 Eats 数据平台团队如何... 详细

Velox 简介:数据平台统一执行引擎

22-09-05 1585 4k

Meta 撰写了有关 Velox 的文章,这是其用于数据工作负载的开源统一执行引擎。该项目是一个令人兴奋的项目 它正在远离默认的基于 JVM 的执行引擎,带有 Spark 和 Presto,但提... 详细

沃尔玛如何使用 Apache Hudi 和 Spark 实现 SCD-2(渐变维度)?

22-08-30 668

数据是当今分析世界的宝贵资产。在向最终用户提供数据时,跟踪数据在一段时间内的变化非常重要。渐变维度 (SCD) 是随时间推移存储和管理当前和历史数据的维度。 在 SCD 的类型中,我们将特别关注类型... 详细

SPL: 专门处理开放格式文件 (txt/csv/json/xml/xls)的Java库

22-08-12 856 1k

在 Java 应用程序中处理 txt、csv、json、xml 和 xls 等开放格式的数据文件是很常见的。Java 中的硬编码非常复杂,因此我们经常求助于某些现成的开源包。但每个包都有其弱点。 ... 详细