Hadoop大数据

     

可组合数据系统之路:对过去15年和未来的思考

216 6K

来自韦斯·麦金尼文章: 15年前,也就是2008年4月,我开始构建数据分析工具。我当时所感知到的是数据科学的迫切“.

Uber如何实现互联网大规模金融交易的自动化审计?

350 4K

假设乘客于 2022 年 1 月从家到机场,费用为 60 美元。6-7 个月后,乘客再次从家到机场,但现在需支付 50 美元。在这两次行程中,乘客都使用了具.

Apache Flink 是实时流处理的行业标准

379

在 Decodable,我们长期以来一直认为 .

Druid:实时分析数据存储

1373 4K

Apache Druid是一个 开源 .

Uber实时数据基础设施:分布式计算架构

1422 1 8K
Uber 的实时数据基础设施: Apache Kafka 用于流式存储, Flink 用于流处理, Pinot 用于.

Dagster使用DuckDB从头构建一个穷人的数据湖

3035 2

数据的价值与数据的新近程度成正比。我们可以使用内存数据库来提高速度和价值生成吗?DuckDB 在这一承诺上获得了很多关注,Dagster 团队撰写了关于其建.

超级表:领英构建可靠和可发现的数据产品之路

671 3K

正如 LinkedIn 数据团队所述,自从十年前采用 Apache .

下一代五个一体化数据平台比较

1330 5K

多合一数据堆栈是未来吗?Ben 的文章来得正是时候,因为 dbt 揭开了语义层的面纱,成为了分析生态系统的枢纽。作者比较了五个可用的一体化数据平台,并讨论了.

Apache Atlas为企业提供元数据管理和治理能力

800

当时Hortonworks的Apache Atlas项目加入了Apache孵化器项目,专注于为企业提供开放的元数据管理和治理能力,以建立其数据资产的目录,对.

Snowflake和Databricks比较 - John

1379 2K

应该选择 Snowflake 还是 Databricks? Snowflake 和 Databricks 都是很棒的组织。他们发明或重新发明了数据管理.

使用 Spark 优化加速大数据处理 - Gaurav

877 7K
Apache Spark 是领先的开源数据处理引擎,用于批处理、机器学习、流处理和大规模 SQL(结构化查询语言)。它旨在使大数据处理更快、更容易。自诞生以.

Schema Ops是数据合约更好的命名? - Ananth

688

在过去的几周里,数据合约一直是一个热门话题: Chad 发表 .

Apache Iceber能将Amazon S3 成本降低了 90%

1077 4K

与Apache Hive 相比,新一代.

有状态流处理和流数据库两种数据处理方式比较

1077 3K

长期以来,在有状态流处理器和流数据库之间进行选择一直是一个有争议的问题。 一个流处理应用程序是一个DAG(直接无环图),其中每个节点是.

批处理中的数据质量如何保证? - Weingarten

1007

下面是我在尼尔森工作时的实现,这在 Airflow 中使用 Soda 来实施数据质量检查的 .

Claimforce为何使用湖仓统一数据湖和数据仓库?

1178 3K

在 Claimforce,我们最初的大数据方法是一个两层 .

Apache Iceberg 英文学习资料

1103 12K

Apache Iceberg 是一种开源数据湖库表格式,已席卷大数据分析世界。  在本文中,您将找到一个 101 视频课程,以及您在概念和实践方面快速.

数据摄取的 7 个最佳实践

1005 3K

“数据工程是 2022 年最性感的新工作”它在需求和职业机会方面已经超过了数据科学。 如果您还没有看到对数据工程的需求呈天文数字增长,那么您很可能在过.

Eats数据平台:用数据赋能企业

1216 4K
在线食品订购和配送是一个竞争激烈的市场,速度是生存的关键。Coupang Eats(简称Eats)是韩国电商巨头Coupang的外卖子公司。 在这篇文.

沃尔玛如何使用 Apache Hudi 和 Spark 实现 SCD-2(渐变维度)?

757

数据是当今分析世界的宝贵资产。在向最终用户提供数据时,跟踪数据在一段时间内的变化非常重要。渐变维度 (SCD) 是随时间推移存储和管理当前和历史数据的维度。.

数据架构的演变

1025 4K

数据与业务运营和各种分析工作负载(BI、数据科学、认知解决方案等)的分离与 IT 系统和业务应用程序一样古老。由于分析工作负载是资源密集型的,因此需要将它们.

数据湖仓比较:Apache Hudi、Delta Lake、Apache Iceberg

1834 10K
随着 Lakehouse 的日益普及,人们对分析和比较作为该数据 .

Schemata:分散式的数据结构建模框架

856 2K

自从 Hadoop 和.

贝宝:基于DDD的下一代数据平台是数据网格

831 7K
PayPal 撰写了关于采用数据网格原则的策略。该博客承认尚无标准实施,但建立了一个商业案例,说明 PayPal 在其数据策略中需要 DataMesh 原则.

奈飞的数据网格是什么样?

767 5K
作者: 雷波 .

2022年数据工程现状

1839 1 9K

数据工程的所有最新工具和趋势: 数据摄取 该层包括提供从操作系统到数据存储.

DBT、Airflow 和 Kubernetes的架构演进 - yan

1077 4K
如果您在 Kubernetes 集群上部署 Airflow,并且正在寻找将 DBT 集成到 Airflow 中的方法,那么本文可能会给您一些启发。 .

Criteo在大规模数据工程优化上经验 - Nam

722 3K
如何将 230 PB 的原始数据转化为可行的解决方案? 在我们快节奏的数字时代,每天通过 Internet 传输数.

Apache Airflow的10条最佳实践

1192 4K

最初,Airflow 有点像“超级 cron”,因此运行作业的方式与框架本身高度耦合。今天,您必须克服的最大挑战是消除调度和作业之间的耦合。 .

大数据编排引擎历史回顾 - Ananth

983 3K

我在 Hadoop /B.