Metacat：让Netflix的大数据变得可发现且有意义

Netflix 撰写了有关 Metacat 的文章，这是一个充当所有数据存储的联合元数据访问层的系统。各种计算引擎的集中式服务可以用来访问不同的数据集。Metacat 采用了一种有趣的架构模式，其中各个元数据存储仍然是模式元数据的真实来源，而 Metacat 并未在其存储中实现它。

大多数大公司都有大量数据源，数据格式不同，数据量大。整个企业中的许多人都可以访问和分析这些数据存储。在 Netflix，我们的数据仓库由存储在 Amazon S3（通过 Hive）、Druid、Elasticsearch、Redshift、Snowflake 和 MySql 中的大量数据集组成。我们的平台支持 Spark、Presto、Pig 和 Hive 来消费、处理和生成数据集。鉴于数据源的多样性，并确保我们的数据平台可以作为一个“单一”数据仓库跨这些数据集进行互操作，我们构建了 Metacat。在这篇博客中，我们将讨论我们构建 Metacat 的动机，Metacat 是一种使数据易于发现、处理和管理的元数据服务。

详细点击标题