Hadoop大数据
Uber实时数据基础设施:分布式计算架构

Dagster使用DuckDB从头构建一个穷人的数据湖

数据的价值与数据的新近程度成正比。我们可以使用内存数据库来提高速度和价值生成吗?DuckDB 在这一承诺上获得了很多关注,Dagster 团队撰写了关于其建立在 DuckDB、Parquet 和 D... 详细
超级表:领英构建可靠和可发现的数据产品之路

正如 LinkedIn 数据团队所述,自从十年前采用 Apache Hadoop 以来,包括 LinkedIn 在内的许多公司都经历了指数级的数据增长。随着自助数据创作工具和发布平台的激增,... 详细
下一代五个一体化数据平台比较

多合一数据堆栈是未来吗?Ben 的文章来得正是时候,因为 dbt 揭开了语义层的面纱,成为了分析生态系统的枢纽。作者比较了五个可用的一体化数据平台,并讨论了它们的优缺点。 现代数据堆栈在 2020... 详细
Apache Atlas为企业提供元数据管理和治理能力

当时Hortonworks的Apache Atlas项目加入了Apache孵化器项目,专注于为企业提供开放的元数据管理和治理能力,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家、分... 详细
Snowflake和Databricks比较 - John

应该选择 Snowflake 还是 Databricks? Snowflake 和 Databricks 都是很棒的组织。他们发明或重新发明了数据管理行业。我不会贬低他们的任何技术、人员或流程。然而... 详细
使用 Spark 优化加速大数据处理 - Gaurav

Schema Ops是数据合约更好的命名? - Ananth

在过去的几周里,数据合约一直是一个热门话题: Chad 发表 了数据合约的工程指南 , Jake 发表了 合约驱动的平台 , David 发表 了关于数据合约的三部分系列 Yali S... 详细
Apache Iceber能将Amazon S3 成本降低了 90%

与Apache Hive 相比,新一代数据湖表格式( Apache Hudi 、 Apache Iceberg 和 . 详细
有状态流处理和流数据库两种数据处理方式比较

长期以来,在有状态流处理器和流数据库之间进行选择一直是一个有争议的问题。 一个流处理应用程序是一个DAG(直接无环图),其中每个节点是一个处理步骤。你通过编写单独的处理函数来编写DAG,这些函数... 详细
批处理中的数据质量如何保证? - Weingarten

下面是我在尼尔森工作时的实现,这在 Airflow 中使用 Soda 来实施数据质量检查的 博客 类似。 当我在尼尔森时,还没有一个数据质量的总体框架或平台,所以我们“开发”的只是内部供我们自己使... 详细
Claimforce为何使用湖仓统一数据湖和数据仓库?

在 Claimforce,我们最初的大数据方法是一个两层 架构 ,包括 Amazon S3 中的数据湖阶段和 Amazon Redshift 中的数据仓库阶段( 此处 概述)。随着时间的推移,我... 详细
Apache Iceberg 英文学习资料

Apache Iceberg 是一种开源数据湖库表格式,已席卷大数据分析世界。 在本文中,您将找到一个 101 视频课程,以及您在概念和实践方面快速了解 Apache Iceberg 所需的所有资... 详细
数据摄取的 7 个最佳实践

“数据工程是 2022 年最性感的新工作”它在需求和职业机会方面已经超过了数据科学。 如果您还没有看到对数据工程的需求呈天文数字增长,那么您很可能在过去 2 年都生活在山洞里。 到底是什么炒作? 为... 详细