为什么每个人都想杀死 Airflow?


Airflow 可能是过去十年中 Top 5 突破性数据技术之一。作者通过比较 Airflow 的一些优缺点来描述当今编排引擎的竞争格局。

Apache Airflow 从根本上没有错,它是一流的数据工程工具,长期以来一直在推动数据管道向前发展。而且这个工具的采用并没有放缓。

那么为什么人们称 Apache Airflow 结束了呢?

我要向你提出一个提示:一般的数据团队或数据工程师并不要求 Apache Airflow 的消亡;而新的SAAS公司和营销团队呼吁结束Airflow,这两者是有区别的。
并不是说 Airflow 真的要结束了,而是说Airflow 已经达到了临界质量,现在竞争对手正在步履维艰,争夺市场份额。

Airflow 之所以领先,是因为管道编排领域有两个新人,PrefectDagster 。这是很自然的,这就是自由和开放市场的运作方式,即使使用开源软件也是如此。
当诸如 Airflow 之类的东西变得非常流行时,因为它很好地完成了一项任务并满足了需求,总会有人或某物出现并说,“我可以做得更好。”
对于 Airflow 来说,没有什么比激烈的竞争更好的了。它推动整个社区进行改进和创新。

我们怎么才能真正知道 Airflow 仍然有一个坚实的未来?
这是一个重要的问题,如果您正在市场上寻找新的编排和依赖管理工具,您肯定不想搭便车去赶牛。我会给你两个非常有说服力的理由,让你相信 Airflow 会长期存在。


可以肯定的是,如果 AWS 和 GCP 愿意全力以赴将 Airflow 作为一项托管服务提供,它将会存在一段时间。如果仅仅因为他们拥有如此多的客户和如此多的市场份额这一事实。
当云公司让工具的使用变得异常简单时,你可以打赌数据团队会上钩。简单性和在同一架构上保持工具被视为越来越重要。
归根结底,如果 AWS 和 GCP 支持 Airflow,它就会继续存在。

Airflow 有哪些不擅长的地方?
重要的是要认识到每个工具都会有“需要改进的地方”,也就是它不擅长的地方。
Airflow 也不例外,它的缺点催生了下一代工具,如 Perfect 和 Dagster。Airflow 存在实际问题,可能会给某些数据团队带来严重问题。

  • 不能很好地扩展大数据。
  • UI 并不是什么值得欢呼的东西。
  • 有些人抱怨 DAG 冗长。
  • 运行数十万个 DAG 可能会很痛苦。
  • 将自定义管道代码集成到 Airflow 中并不是很顺利。
  • 任务间通信是肉中刺。
  • 有些人抱怨 DAG 学习曲线。

老实说,你不能真的把所有这些都归咎于 Apache Airflow,事实是 Airflow 在数据工程社区中变得如此普遍和广泛使用,以至于它被滥用了。
尝试将 Airflow 与一群工作人员一起实际进行大规模数据处理和转换……可能不是一个好主意。你在滥用气流。如果你有任何体面大小的数据,你应该做的是使用一些社区提供的连接器/包卸载计算,让 Airflow 做它最擅长的事情,监控、编排、管理依赖项和计划。

Airflow 还擅长什么?
嗯,我很高兴你问!随着世界各地使用 Airflow 的人数和工程师的数量,您可以打赌它有很多优势,并使数据团队能够做出惊人的事情。
让我们歌颂一下 Apache Airflow,好吗?

  • Airflow擅长调度任务。
  • Airflow 擅长编排。
  • Airflow 擅长依赖管理。
  • Airflow 拥有庞大且非常活跃的社区。
  • Airflow 拥有数量惊人的第三方提供商(想想 Snowflake、Databricks 等)
  • Airflow 是非常可定制和可扩展的。
  • Airflow 由 AWS 和 GCP 支持和管理。
  • Airflow 已经足够“强化”以用于生产。