开源 Amundsen:数据发现和元数据平台

22-10-24 banq

在像 Lyft 这样的现代数据驱动型公司中,平台上的每一次互动都是由数据驱动的。复杂数据生成、ETL 流程和分析带来的挑战使元数据变得非常重要。

此外,数据资源的种类也在不断增加。在 Lyft,这些资源包括 Redshift、Presto、Hive、PostgreSQL 中的 SQL 表和视图,以及 Mode、Superset 和 Tableau 等商业智能工具中的仪表板。随着数据资源的增长,了解存在哪些数据资源、如何访问它们以及这些资源中有哪些可用信息变得越来越困难。

Lyft 开源了 Amundsen,并详细介绍了支持数据发现引擎的架构。文中比较了用于提取元数据的拉取模型与推送模型,以及它对拉取模型的好处。

Amundsen 由一个通用数据摄取框架 DataBuilder、一个前端服务、一个处理来自前端的请求的元数据服务和一个由 ElasticSearch 支持的
搜索服务组成。

详细点击标题