Metacat:让Netflix的大数据变得可发现且有意义

22-10-24 banq

Netflix 撰写了有关 Metacat 的文章,这是一个充当所有数据存储的联合元数据访问层的系统。各种计算引擎的集中式服务可以用来访问不同的数据集。Metacat 采用了一种有趣的架构模式,其中各个元数据存储仍然是模式元数据的真实来源,而 Metacat 并未在其存储中实现它。

大多数大公司都有大量数据源,数据格式不同,数据量大。整个企业中的许多人都可以访问和分析这些数据存储。在 Netflix,我们的数据仓库由存储在 Amazon S3(通过 Hive)、Druid、Elasticsearch、Redshift、Snowflake 和 MySql 中的大量数据集组成。我们的平台支持 Spark、Presto、Pig 和 Hive 来消费、处理和生成数据集。鉴于数据源的多样性,并确保我们的数据平台可以作为一个“单一”数据仓库跨这些数据集进行互操作,我们构建了 Metacat。在这篇博客中,我们将讨论我们构建 Metacat 的动机,Metacat 是一种使数据易于发现、处理和管理的元数据服务。

详细点击标题