新的基于云的 SaaS 服务让一切变得简单。人们可以想象 IT 服务和数据湖,就像可以很容易地从插座中获取电力一样。这真的这么简单,以至于这些服务在未来甚至可以让数据工程师变得多余吗?
试想一下:不再有脾气暴躁、只看到风险的 IT 基础架构技术人员和架构师,也不再有花费大量资金和费力构建数据管道的数据工程师。最多只有数据科学家使用零 ETL 方法简单地通过拖放来集成数据,然后使数据可用并对其进行有利可图的评估。这听起来像是每个 CIO 的仙境梦。然而,这整件事有多可靠呢?
首先,我们来谈谈技术:零 ETL 到底是什么意思?归根结底,这意味着现代基于云的数据仓库甚至数据湖屋使用大型云提供商的服务来直接分析来自其他来源的数据。因此,无需从 SQL 或 NoSQL 数据库中提取数据,将其转换并存储两次到您的数据湖或数据仓库等。您只需直接访问数据(通常只需通过 SQL)。这有几个优点:
- 不再需要数据管道,如果您之前已经对它们进行了编程,则尤其省力。
- 没有重复的数据存储,这会花费金钱和性能。
- 数据始终是最新的。
例如,该领域最令人兴奋的项目之一是 Google BigLake,您可以使用它访问各种数据源,甚至可以跨平台(例如 Azure 和 AWS)访问数据,以便通过 SQL 分析数据。上面描述的优点实际上在这里给出了,当然你会问自己,好吧,但问题在哪里?
结果会很快导致数据混乱,数据湖屋会迅速变成数据沼泽。
借助DataPlex等新服务,您还可以为此类外部数据源分配访问权限,为它们提供视图逻辑,并将它们集成到数据目录中,从而实现具有安全数据网格的数据治理。当然,AWS 和 Azure 等其他大型云平台也提供类似的产品。
所以你真的可以说这将使数据集成变得更加容易。更少的服务、更少的重复数据存储、更少的自定义编程。所以可以说数据工程师的一些工作实际上已经被技术解决方案接管了,或者变得更简单了。
然而,存在一些困难:不在云中工作的公司无法从这种情况中获利,因为这些架构通常只能在云中可行。
尽管如此,将 IT 外包到云中的公司也不能放弃数据工程师,因为仍然有一些系统还没有那么容易集成。也许任务的范围会简单地改变,而不是使用 CDC 等自己构建 ELT 和 ELT 管道。他们现在将使用这种易于集成的服务,然后将更加关注数据治理和数据网格等主题,其中分布数据的保护和数据保护以及数据文化在公司中的体现都处于危险之中。