LinkedIn大数据工程的升级

在 LinkedIn 的早期阶段（2010 年代初），公司发展非常迅速。为了跟上这种增长，他们在分析堆栈中利用了几个第三方专有平台。
使用这些专有平台比拼凑现成的产品要快得多。
LinkedIn 依靠 Informatica 和 Appworx 进行ETL到使用 Teradata 构建的数据仓库。

这个堆栈为 LinkedIn 服务了 6 年，但它有一些缺点：

LinkedIn 的新业务分析技术堆栈
新的技术堆栈具有以下组件

Unified Metrics Pipeline - 开发人员提供 ETL 脚本来创建数据管道的统一平台。
Azkaban - 一个分布式工作流调度程序，用于管理 Hadoop 上的作业。
数据集读取器 - 数据集存储在 Hadoop 分布式文件系统上，可以通过多种方式读取。它们可以通过DALI读取，DALI是一种开发用于允许 LinkedIn 工程师读取数据而无需担心其存储介质、路径或格式的 API。它们可以通过各种仪表板和用于业务分析的临时查询来读取。

新生态系统的设计深受旧生态系统的影响，并解决了遗留技术堆栈的主要痛点。