数据目录

     

荷兰银行构建可扩展的元数据驱动的数据摄取框架

1250 12K
数据摄取是一个异构系统,具有多个来源,具有数据格式、调度和数据验证要求。现代数据堆栈正试图在孤岛中解决这个问题。组织最终必须捆绑一切以使其工作。ABN AMRO荷兰银行 分享了它如何构建元数据驱动的数.

超级表:领英构建可靠和可发现的数据产品之路

761 3K

正如 LinkedIn 数据团队所述,自从十年前采用 Apache Hadoop 以来,包括 LinkedIn 在内的许多公司都经历了指数级的数据增长。随着自助数据创作工具和发布平台的激增,不同的团队.

opendatadiscovery/odd-platform:第一个开源数据发现和可观察性平台

1862

ODD 是面向数据团队的开源数据发现和可观察性工具,有助于通过现代用户友好的环境有效地实现数据民主化、加强协作并减少数据发现时间。关键特点: 缩短数据发现阶段 对数据的使用方式和使用者保持透明 通过持.

Metacat:让Netflix的大数据变得可发现且有意义

1328 2

Netflix 撰写了有关 Metacat 的文章,这是一个充当所有数据存储的联合元数据访问层的系统。各种计算引擎的集中式服务可以用来访问不同的数据集。Metacat 采用了一种有趣的架构模式,其中各.

Apache Atlas为企业提供元数据管理和治理能力

940

当时Hortonworks的Apache Atlas项目加入了Apache孵化器项目,专注于为企业提供开放的元数据管理和治理能力,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家、分析.

在 Airbnb 实现数据民主化

784

Airbnb 开发了 DataPortal 以使数据民主化,并通过帮助数据探索、发现和信任来帮助 Airbnb 员工获得数据知情权。这篇文章非常适合阅读,详细介绍了数据发现工具的碎片化数据格局和数据建.

PayPal 元数据之旅

738 1

Paypal 撰写了关于通用数据目录 (UDC) 从 2017 年孵化开始的演变。该博客讲述了 UDC 的增长如何帮助 Paypal 弃用多个重复的基础架构,以及 Paypal 为何采用拉模型来获取元.

优步如何使用 Databook 将元数据转化为洞察力?

774

优步写了一篇关于其运行 Databook 的经验的反映,并随着时间的推移对其进行了演变。该博客讲述了结构良好、管理良好的元数据、专注于用户体验的集中式元数据系统以及可扩展数据模型的重要性。每天在全球 .

Nemo:Facebook 的数据发现

823

Facebook 写了关于其数据发现引擎 Nemo 的文章。Nemo 有两个主要组件,索引和服务,前端位于服务部分的顶部。索引又分为每天发生的批量索引和立即更新索引的即时索引。对于 Serving,N.

Shopify如何解决数据发现的挑战

687

Shopify 撰写了有关 Artifact、其数据发现和数据管理工具的文章,以提高生产力、提供更大的数据可访问性并允许更高级别的数据治理。该博客讲述了构建数据发现服务的挑战,从获取元数据到转换、建模.

Spotify如何改进数据科学家的数据发现?

733 1

Spotify 撰写了有关 Lexicon 的文章,这是一种数据发现服务,旨在改善数据科学家的数据发现体验。该发现侧重于个性化,例如在整个组织中查找流行的数据集,为团队查找相关数据集,并建议每个人都应.

DataHub:LinkedIn的元数据搜索和发现平台

1535

LinkedIn 开源了其元数据搜索和发现平台 DataHub,并撰写了关于从 WhereHow 到 DataHub 的旅程。该博文讲述了开发开源第一个通用框架的困难,以及 DataHub 如何开发工.

开源 Amundsen:数据发现和元数据平台

1335 1

在像 Lyft 这样的现代数据驱动型公司中,平台上的每一次互动都是由数据驱动的。复杂数据生成、ETL 流程和分析带来的挑战使元数据变得非常重要。此外,数据资源的种类也在不断增加。在 Lyft,这些资源.