DataHub:LinkedIn的元数据搜索和发现平台


LinkedIn 开源了其元数据搜索和发现平台 DataHub,并撰写了关于从 WhereHow 到 DataHub 的旅程。该博文讲述了开发开源第一个通用框架的困难,以及 DataHub 如何开发工具和支持开源贡献

快速找到正确的数据对于任何依赖大数据洞察力做出数据驱动决策的公司来说都是至关重要的。这不仅会影响数据用户(包括分析师、机器学习开发人员、数据科学家和数据工程师)的生产力,还会对依赖高质量机器学习 (ML) 管道的最终产品产生直接影响。此外,采用或构建 ML 平台的趋势自然会引出一个问题:您在内部发现 ML 特征、模型、指标、数据集等的方法是什么?

在这篇博文中,我们将分享我们的元数据搜索和发现平台DataHub的开源历程,从项目早期的WhereHows 开始。LinkedIn 维护了一个独立于开源版本的内部版本的 DataHub。我们将首先解释为什么我们需要两个独立的开发环境,然后讨论开源 WhereHows 的早期方法,并将我们的内部(生产)版本的 DataHub 与GitHub 上的版本进行比较。我们还将分享有关用于推送和拉取开源更新以保持两个存储库同步的新自动化解决方案的详细信息。最后,我们将提供有关如何开始使用开源 DataHub 的说明,并简要讨论其架构。