Hadoop大数据教程 - 第2页

应该选择 Snowflake 还是 Databricks？Snowflake 和 Databricks 都是很棒的组织。他们发明或重新发明了数据管理行业。我不会贬低他们的任何技术、人员或流程。然而，他们确实在激烈地相互竞争。然而，我会说，Snowflake 在竞争中走上了更高的道路，

随着 Lakehouse 的日益普及，人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚：Apache Hudi、Delta Lake 和 Apache Iceberg。目前发表的大多数比较文章似乎仅将这些项目评估为传统的仅附加工作负载的

在 Claimforce，我们最初的大数据方法是一个两层架构，包括 Amazon S3 中的数据湖阶段和 Amazon Redshift 中的数据仓库阶段（

与Apache Hive相比，新一代数据湖表格式（Apach

长期以来，在有状态流处理器和流数据库之间进行选择一直是一个有争议的问题。一个流处理应用程序是一个DAG（直接无环图），其中每个节点是一个处理步骤。你通过编写单独的处理函数来编写DAG，这些函数在数据流经过它们时执行操作。这些函数可以是无状态的操作，如转换或过滤，也可以是有状态

Apache Iceberg 是一种开源数据湖库表格式，已席卷大数据分析世界。在本文中，您将找到一个 101 视频课程，以及您在概念和实践方面快速了解 Apache Iceberg 所需的所有资源的集合。以下是继续了解更多关于 Apac

数据与业务运营和各种分析工作负载（BI、数据科学、认知解决方案等）的分离与 IT 系统和业务应用程序一样古老。由于分析工作负载是资源密集型的，因此需要将它们与运行业务运营的 IT 系统分开，以便运营工作负载在没有任何资源限制的情况下平稳运行，从而确保积极的客户体验。

“数据工程是 2022 年最性感的新工作”它在需求和职业机会方面已经超过了数据科学。如果您还没有看到对数据工程的需求呈天文数字增长，那么您很可能在过去 2 年都生活在山洞里。到底是什么炒作？为了试图回答这个问题，我们必须首先探索，

Apache Spark 是领先的开源数据处理引擎，用于批处理、机器学习、流处理和大规模 SQL（结构化查询语言）。它旨在使大数据处理更快、更容易。自诞生以来，Spark 作为一个大数据处理框架获得了极大的普及，并被处理大量数据的不同行业和企业广泛使用。

在过去的几周里，数据合约一直是一个热门话题： Chad 发表了数据合约的工程指南， Jake 发表了

下面是我在尼尔森工作时的实现，这在 Airflow 中使用 Soda 来实施数据质量检查的

在线食品订购和配送是一个竞争激烈的市场，速度是生存的关键。Coupang Eats（简称Eats）是韩国电商巨头Coupang的外卖子公司。在这篇文章中，我们将详细介绍 Eats 数据平台团队如何构建通用且配置驱动的数据处理系统，通过自动化关键业务运营来加速我们的增长。

数据是当今分析世界的宝贵资产。在向最终用户提供数据时，跟踪数据在一段时间内的变化非常重要。渐变维度 (SCD) 是随时间推移存储和管理当前和历史数据的维度。在 SCD 的类型中，我们将特别关注类型 2（SCD 2），它保留了值的完整历史。每条记录都包含有效时间和到期时间，以标识记录处

自从 Hadoop 和 MapReduce 诞生以来，数据工程社区一直非常关注数据转换的商品化。所有 Hadoop 抽象，如 Hive、Pig、Crunch 等。在 Hadoop 之上构建以进一步简化数据转换。通过简化数据转换，Apache Spark 对 dbt 数据工程社区取得了重大飞跃

PayPal 撰写了关于采用数据网格原则的策略。该博客承认尚无标准实施，但建立了一个商业案例，说明 PayPal 在其数据策略中需要 DataMesh 原则。这是一个令人兴奋的从 PayPal 观察的空间。随着企业变得更加敏捷，集中化越来越成为过

作者：雷波,

数据工程的所有最新工具和趋势：数据摄取该层包括提供从操作系统到数据存储的管道的流技术和 SaaS 服务。这里值得一提的演变是

如果您在 Kubernetes 集群上部署 Airflow，并且正在寻找将 DBT 集成到 Airflow 中的方法，那么本文可能会给您一些启发。需要对 Airflow、DBT（数据构建工具）和 Kubernetes 有一些基本的了解。