Hadoop大数据
可组合数据系统之路:对过去15年和未来的思考

来自韦斯·麦金尼文章: 15年前,也就是2008年4月,我开始构建数据分析工具。我当时所感知到的是数据科学的迫切“.
Uber如何实现互联网大规模金融交易的自动化审计?

假设乘客于 2022 年 1 月从家到机场,费用为 60 美元。6-7 个月后,乘客再次从家到机场,但现在需支付 50 美元。在这两次行程中,乘客都使用了具.
Apache Flink 是实时流处理的行业标准

在 Decodable,我们长期以来一直认为 .
Druid:实时分析数据存储

Apache Druid是一个 开源 .
Uber实时数据基础设施:分布式计算架构

Dagster使用DuckDB从头构建一个穷人的数据湖

数据的价值与数据的新近程度成正比。我们可以使用内存数据库来提高速度和价值生成吗?DuckDB 在这一承诺上获得了很多关注,Dagster 团队撰写了关于其建.
超级表:领英构建可靠和可发现的数据产品之路

正如 LinkedIn 数据团队所述,自从十年前采用 Apache .
下一代五个一体化数据平台比较

多合一数据堆栈是未来吗?Ben 的文章来得正是时候,因为 dbt 揭开了语义层的面纱,成为了分析生态系统的枢纽。作者比较了五个可用的一体化数据平台,并讨论了.
Apache Atlas为企业提供元数据管理和治理能力

当时Hortonworks的Apache Atlas项目加入了Apache孵化器项目,专注于为企业提供开放的元数据管理和治理能力,以建立其数据资产的目录,对.
Snowflake和Databricks比较 - John

应该选择 Snowflake 还是 Databricks? Snowflake 和 Databricks 都是很棒的组织。他们发明或重新发明了数据管理.
使用 Spark 优化加速大数据处理 - Gaurav

Schema Ops是数据合约更好的命名? - Ananth

在过去的几周里,数据合约一直是一个热门话题: Chad 发表 .
Apache Iceber能将Amazon S3 成本降低了 90%

与Apache Hive 相比,新一代.
有状态流处理和流数据库两种数据处理方式比较

长期以来,在有状态流处理器和流数据库之间进行选择一直是一个有争议的问题。 一个流处理应用程序是一个DAG(直接无环图),其中每个节点是.
批处理中的数据质量如何保证? - Weingarten

下面是我在尼尔森工作时的实现,这在 Airflow 中使用 Soda 来实施数据质量检查的 .
Claimforce为何使用湖仓统一数据湖和数据仓库?

在 Claimforce,我们最初的大数据方法是一个两层 .
Apache Iceberg 英文学习资料

Apache Iceberg 是一种开源数据湖库表格式,已席卷大数据分析世界。 在本文中,您将找到一个 101 视频课程,以及您在概念和实践方面快速.
数据摄取的 7 个最佳实践

“数据工程是 2022 年最性感的新工作”它在需求和职业机会方面已经超过了数据科学。 如果您还没有看到对数据工程的需求呈天文数字增长,那么您很可能在过.
Eats数据平台:用数据赋能企业

沃尔玛如何使用 Apache Hudi 和 Spark 实现 SCD-2(渐变维度)?

数据是当今分析世界的宝贵资产。在向最终用户提供数据时,跟踪数据在一段时间内的变化非常重要。渐变维度 (SCD) 是随时间推移存储和管理当前和历史数据的维度。.
数据架构的演变

数据与业务运营和各种分析工作负载(BI、数据科学、认知解决方案等)的分离与 IT 系统和业务应用程序一样古老。由于分析工作负载是资源密集型的,因此需要将它们.
数据湖仓比较:Apache Hudi、Delta Lake、Apache Iceberg

Schemata:分散式的数据结构建模框架

自从 Hadoop 和.
贝宝:基于DDD的下一代数据平台是数据网格

奈飞的数据网格是什么样?

2022年数据工程现状

数据工程的所有最新工具和趋势: 数据摄取 该层包括提供从操作系统到数据存储.
DBT、Airflow 和 Kubernetes的架构演进 - yan

Criteo在大规模数据工程优化上经验 - Nam

Apache Airflow的10条最佳实践

最初,Airflow 有点像“超级 cron”,因此运行作业的方式与框架本身高度耦合。今天,您必须克服的最大挑战是消除调度和作业之间的耦合。 .
大数据编排引擎历史回顾 - Ananth

我在 Hadoop /B.