2023年数据工程预测


需求是发明之母,我预测2023年将是技术的辉煌一年,这些技术可以帮助团队保存数据运维方面的时间、收入和资源使工程师可以专注于构建、扩展和总体上做到事半功倍。
以下是我对明年一些最重要趋势的预测(没有特别的顺序)。

预测1:数据工程团队将在FinOps /数据云成本优化上投入更多时间
随着越来越多的数据工作负载转移到云,我预计数据将成为公司支出的更大部分,并引起财务部门的更多审查。

预测2:数据团队角色将进一步专业化
目前,数据团队角色主要按数据处理阶段划分:

  • 数据工程师通过管道将数据输入,
  • 分析工程师会将其清理干净
  • 数据分析师/科学家将其可视化并从中收集见解。
这些角色不会有任何变化,但我认为将按业务价值或目标进行额外的细分:
  • 数据可靠性工程师将确保数据质量
  • 数据产品经理将促进采用和货币化
  • DataOps工程师将专注于治理和效率
  • 数据架构师将专注于消除孤岛和长期投资

预测3:数据变得更加杂乱,但中央数据平台依然存在
我认为一些团队将继续他们的数据网格之旅,他们将采用数据网格原则,如域优先架构、自助服务和像对待产品一样对待数据,但他们将保留一个强大的中央平台和数据工程SWAT团队。

预测4:大多数机器学习模型(>51%)将成功投入生产
我相信我们会看到普通组织成功地将更多的机器学习模型部署到生产中。
有很多挑战,包括:

  • 业务需求和机器学习目标之间的不一致,
  • 机器学习训练不能一概而论,
  • 测试和验证问题,以及
  • 部署和服务障碍。
我认为ML工程团队开始转向的原因是对数据质量的日益关注和使ML更可用的经济压力的结合

预测5:数据合同进入早期采用阶段
任何关注LinkedIn上数据讨论的人都知道,数据合约一直是今年讨论最多的话题之一。这是有原因的:它们解决了数据团队面临的最大的数据质量问题之一。
意外的架构更改是数据质量问题的主要原因。大多数情况下,它们是不知情的软件工程师向服务推送更新的结果,而不知道它们正在下游的数据系统中造成破坏。
然而,重要的是要注意,鉴于所有的网上聊天,数据合同仍然处于起步阶段。这一过程的先驱者--像查德·桑德森安德鲁·琼斯--已经展示了它是如何从概念走向实践的,但他们也非常坦率地说,这在他们各自的组织中仍然是一项正在进行的工作。
我预测,这一主题的能量和重要性将加速其实施,从先驱到早期阶段的采用者在2023年。这将为2024年的转折点奠定基础,在2024年,它将开始跨越鸿沟,成为主流最佳实践,或开始消失。

预测6:数据仓库和数据湖使用情形开始变得模糊
数据湖更适合流媒体、人工智能和更多数据科学用例,而数据仓库更适合分析用例。

在2023年说同样的话,你只会得到嘲笑。
去年,数据仓库的重点是流功能。Snowflake宣布推出Snowpipe流媒体,并重构了他们的Kafka连接器,以便当数据到达Snowflake时,可以立即查询,从而将延迟降低10倍。Google宣布Pub/Sub现在可以直接流到BigQuery中,这使得将流连接到数据仓库比以往任何时候都容易。
与此同时,像数据库这样的数据湖为存储的数据添加了元数据和结构。Databricks发布了Unity Catalog,这是一个使团队能够更容易地向他们的数据资产添加元数据等结构的功能。

预测7:团队更快地解决数据异常问题
韦克菲尔德研究公司2022年对300多名数据专业人士进行的一项调查显示,受访者平均将40%的工作日花在数据质量上。
数据停机时间:组织每月平均遇到61起事件,平均需要4个小时来检测,另外9个小时来解决。

在今年与数百名数据领导者的交谈中,我观察到许多人通过从静态硬编码数据测试转向基于机器学习的数据监控,缩短了检测时间。
这是令人兴奋的,因为在自动化根本原因分析方面的新创新潜力也是如此。分段分析、查询变更检测、数据沿袭等功能有助于将“数据为什么出错”的可能性从无限缩小到少数几种可能性,无论问题是与系统、代码还是数据本身有关。