中台数据工程教程 - 第12页

本体是针对“特定兴趣领域”的正式定义的词汇表（术语）。因为它是形式化定义的，它可以减少人类话语中混淆的机会，事实上，一些本体就是为此目的而创建的，也有为使得计算机程序能够推断关于领域的逻辑结果而创建的本体。因此，开发本体可能是创建数据库、专家系

在像 Lyft 这样的现代数据驱动型公司中，平台上的每一次互动都是由数据驱动的。复杂数据生成、ETL 流程和分析带来的挑战使元数据变得非常重要。此外，数据资源的种类也在不断增加。在 Lyft，这些资源包括 Redshift、Presto、Hive

LinkedIn 开源了其元数据搜索和发现平台 DataHub，并撰写了关于从 WhereHow 到 DataHub 的旅程。该博文讲述了开发开源第一个通用框架的困难，以及 DataHub 如何开发工具和支持开源贡献快速找到正确的数据对于任何依赖

应该选择 Snowflake 还是 Databricks？Snowflake 和 Databricks 都是很棒的组织。他们发明或重新发明了数据管理行业。我不会贬低他们的任何技术、人员或流程。然而，他们确实在激烈地相互竞争。然而，我会说，Snowflake 在竞争中走上了更高的道路，

Paypal 撰写了关于通用数据目录 (UDC) 从 2017 年孵化开始的演变。该博客讲述了 UDC 的增长如何帮助 Paypal 弃用多个重复的基础架构，以及 Paypal 为何采用拉模型来获取元数据。元数据对 PayPal 来说并不新鲜。创

Airbnb 开发了 DataPortal 以使数据民主化，并通过帮助数据探索、发现和信任来帮助 Airbnb 员工获得数据知情权。这篇文章非常适合阅读，详细介绍了数据发现工具的碎片化数据格局和数据建模技术。与许多初创公司一样，Airbnb 的员

Shopify 撰写了有关 Artifact、其数据发现和数据管理工具的文章，以提高生产力、提供更大的数据可访问性并允许更高级别的数据治理。该博客讲述了构建数据发现服务的挑战，从获取元数据到转换、建模和应用以使其更易于使用。数据使用的本质是问题驱

Facebook 写了关于其数据发现引擎 Nemo 的文章。Nemo 有两个主要组件，索引和服务，前端位于服务部分的顶部。索引又分为每天发生的批量索引和立即更新索引的即时索引。对于 Serving，Nemo 对采用基于 spaCy 的 NLP 库特别感兴趣，该库执行文本解析和 ML 方法进行

优步写了一篇关于其运行 Databook 的经验的反映，并随着时间的推移对其进行了演变。该博客讲述了结构良好、管理良好的元数据、专注于用户体验的集中式元数据系统以及可扩展数据模型的重要性。每天在全球 10,000 多个城市，数百万人依靠优步出行、

Spotify 撰写了有关 Lexicon 的文章，这是一种数据发现服务，旨在改善数据科学家的数据发现体验。该发现侧重于个性化，例如在整个组织中查找流行的数据集，为团队查找相关数据集，并建议每个人都应该注意。在 Spotify，我们坚信基于数据的

首先，我想讨论几个数据工程的具体方面：可见性、协作和多样性（技能）。可见性鉴于数据工程工作的性质，在许多公司，数据工程经常生活在数据科学的阴影之下。因此，数据工程团队的可见性往往是一个问题，直接影

似乎认证是数据工程的最新时尚之一。每个人都希望能够展示他们对特定工具的深入了解，还有什么比通过官方考试更好的方式来做到这一点？有哪些不同的认证目标？ AWS当然，AWS 并不是唯一的云平台，但它是目前最受欢

在这篇文章中，我将尝试从我的角度来解释，包括我自己在Blibli.com开发沿袭Lineage追踪器的个人经验。随着最近越来越多的人关注数据线（Data Lineage），有几个积极开发的开源工具和库开始出现，并做出了突破性的改变，诱人地被采用。

Lyft 撰写了有关其基于 Apache Beam 的流式管道架构的演变。该博客讲述了初始版本是如何从 cron 作业开始的，以及为简化管道创建而进行的持续改进。背景2017 年，我们 Marketpla

开发人员提高特征工程的速度是许多公司快速迭代和构建 ML 应用程序的重点。沿着Airbnb 的 Zipline和 Uber 的

大数据处理生成的日志太大而无法处理和索引？Uber 写了如何使用与 Log4J appender 集成的 CLP 来有效地压缩和索引 Spark 日志。CLP(Compressed Log Processor) 是一款能够无损压缩文本日志并在不解压的情况下搜索压缩日志的工具。

Apache Spark 是领先的开源数据处理引擎，用于批处理、机器学习、流处理和大规模 SQL（结构化查询语言）。它旨在使大数据处理更快、更容易。自诞生以来，Spark 作为一个大数据处理框架获得了极大的普及，并被处理大量数据的不同行业和企业广泛使用。

根据麦肯锡公司最近一项关于开发人员速度的研究，数字优先企业的业务绩效的首要驱动因素是对一流开发平台的投资。在过去四年中，Intuit 对 Kubernetes 和Argo等云原生技术的投资以在全公司范围内提供现代平台，从而使开发速度提高了 6 倍