中台数据工程教程 - 第11页

数据的价值与数据的新近程度成正比。我们可以使用内存数据库来提高速度和价值生成吗？DuckDB 在这一承诺上获得了很多关注，Dagster 团队撰写了关于其建立在 DuckDB、Parquet 和 Dagster 之上的实验性数据仓库的文章。 Duc

Twitter严重依赖微服务，但在拥有数千名工程师掌舵的规模如此之大的情况下，Twitter 实际上有多复杂吗？ 1、问题是规模：任何人都可以建立像 twitter 这样的网站，但是您需要大量的基础设施来跟上他们处理的流量。规模分布

GreptimeDB用于时间序列数据的多租户、分布式和云原生实时处理系统，是一个优秀的数据处理系统，可让您实时从时间序列中获取价值。与TimescaleDb 类似，Timescale 也将 Rust 用于他们的工具包扩展。为什么选

Netflix 撰写了有关 Metacat 的文章，这是一个充当所有数据存储的联合元数据访问层的系统。各种计算引擎的集中式服务可以用来访问不同的数据集。Metacat 采用了一种有趣的架构模式，其中各个元数据存储仍然是模式元数据的真实来源，而 Metacat 并未在其存储中实现它。

jpy 是一个双向Python-Java 桥接器，您可以使用它在 Python 程序中嵌入 Java 代码或反之。它的设计特别考虑了两种语言之间的最大数据传输速度。它具有许多出色的功能：将 Java 类层次结构完全转换为 Python 透明地处理 Java 方法重载

当时Hortonworks的Apache Atlas项目加入了Apache孵化器项目，专注于为企业提供开放的元数据管理和治理能力，以建立其数据资产的目录，对这些资产进行分类和治理，并为数据科学家、分析师和数据治理团队提供围绕这些数据资产的协作能力。Apache Atlas于2017年

使用 Apache Pinot、Kafka 和 Debezium 构建可扩展的分析基础架构以提供低延迟的面向用户的分析这篇文章将是一篇很长的文章。所以让我总结一下重要的事情。什么是面向用户的分析？面向用户的分析的商业价值是什么为什么很难实现面向用

Expedia 撰写了关于其使用无监督学习对客户反馈进行分类的方法。我的一部分想知道，云提供商可以开箱即用地提供这些解决方案，难道不应该是一个已解决的问题吗？在Expedia Group ，我们努力为旅客提供无摩擦的方式来提出他们的疑问、投诉或反

Google发布了数据卡，这是一个数据集文件框架，早在提供高数据集生命周期的透明度。数据卡包包括以下内容：

在2020年和2021年，Coinbase的数据团队在AWS MSK、开源的Kafka Connect和Airflow ETL的基础上塑造了一个通用的Kafka基础设施，以增强工程师对事件流、数据分析和pub-sub用例的能力。随着Kafka应用

Uber 的实时数据基础设施： Apache Kafka 用于流式存储， Flink 用于流处理， Pinot 用于 OLAP， HDFS 用于归档存储， Presto 用于交互式查询 <

公司建立数据管道以准备数据成分、提取见解并在内部和外部各方之间分发调查结果。处理各种海量数据的能力已成为推动业务成功的关键因素。然而，构建和管理数据流并不简单。您必须考虑从不同来源提取数据的时间表和计划。当您最终将原始数据或转换后的数据保存到数据仓库中时，您必须考虑转换、建模和聚合。它很容易

分析和审计工作流对于大规模操作数据管道至关重要。过去，我尝试使用“airflow.log”表和“profiling”功能来实现相同的目的。令人惊讶的是，Airflow 配置文件和日志表并没有广泛流行。我很高兴看到 Apache Hop 将其添加为与信息日志框架的集成功能。

数据摄取是一个异构系统，具有多个来源，具有数据格式、调度和数据验证要求。现代数据堆栈正试图在孤岛中解决这个问题。组织最终必须捆绑一切以使其工作。ABN AMRO荷兰银行分享了它如何构建元数据驱动的数据摄取平台以保持沿袭、质量和调度的案例研究。数

正如 LinkedIn 数据团队所述，自从十年前采用 Apache Hadoop 以来，包括 LinkedIn 在内的许多公司都经历了指数级的数据增长。随着自助数据创作工具和发布平台的激增，不同的团队已经创建和共享数据集以快速满足业务需求。虽然使用自助服务工具和平台是各种团队释放数据价值的一

ODD 是面向数据团队的开源数据发现和可观察性工具，有助于通过现代用户友好的环境有效地实现数据民主化、加强协作并减少数据发现时间。关键特点：缩短数据发现阶段对数据的使用方式和使用者保持透明通过持续的合规性和数据质量监控来培养数据文化加速

多合一数据堆栈是未来吗？Ben 的文章来得正是时候，因为 dbt 揭开了语义层的面纱，成为了分析生态系统的枢纽。作者比较了五个可用的一体化数据平台，并讨论了它们的优缺点。现代数据堆栈在 2020 年和 2021 年风靡一时，但在 2021 年后期