LinkedIn大数据工程的升级


在 LinkedIn 的早期阶段(2010 年代初),公司发展非常迅速。为了跟上这种增长,他们在分析堆栈中利用了几个第三方专有平台。
使用这些专有平台比拼凑现成的产品要快得多。
LinkedIn 依靠 Informatica 和 Appworx 进行ETL到使用 Teradata 构建的数据仓库。

这个堆栈为 LinkedIn 服务了 6 年,但它有一些缺点:

  • 缺乏发展的自由——由于这个系统的封闭性,他们在创新的选择上受到限制。此外,与内部和开源系统的集成也是一个挑战。
  • 扩展困难- 由于 Informatica/Appworx 许可证的限制,数据管道开发仅限于一个小型中央团队。这日益成为LinkedIn快速增长的瓶颈。

LinkedIn 的新业务分析技术堆栈
新的技术堆栈具有以下组件

  • Unified Metrics Pipeline - 开发人员提供 ETL 脚本来创建数据管道的统一平台。
  • Azkaban - 一个分布式工作流调度程序,用于管理 Hadoop 上的作业。
  • 数据集读取器 - 数据集存储在 Hadoop 分布式文件系统上,可以通过多种方式读取。它们可以通过DALI读取,DALI是一种开发用于允许 LinkedIn 工程师读取数据而无需担心其存储介质、路径或格式的 API。它们可以通过各种仪表板和用于业务分析的临时查询来读取。

新生态系统的设计深受旧生态系统的影响,并解决了遗留技术堆栈的主要痛点。

  • 数据民主化- Hadoop 生态系统支持 LinkedIn 的其他团队开发和采用数据。以前,由于专有平台的许可限制,只有中央团队可以在旧系统上构建数据管道。
  • 通过开源项目实现技术开发的民主化——新技术堆栈的所有方面都可以通过开源或定制项目自由增强。
  • 技术堆栈的统一——同时运行 2 个技术堆栈显示了维护冗余系统的复杂性和成本。统一技术可以大大提高效率。