数据网格的注意事项 - Kineret

22-09-13 banq

数据网格是一种思维方式的改变,一种从一个团队拥有多个可交付成果到多个数据团队各自拥有一个可交付成果的视角转变。数据网格是数据民主化和实现每个组织的梦想的关键--真正的数据驱动。

在BlaBlaCar,Data Mesh与我们的挑战产生了共鸣:经历了从初创企业过渡到中等规模企业的成长之痛。我们的两个主要挑战是规模和数据质量:在数据人才不断增长的同时,我们似乎无法提高数据团队的速度,这些团队是按专业组织的。我们不断通过招聘来解决工作量的问题,但我们的数据质量仍然很差--我们发现问题的时间太晚了,有时甚至是在做出战略决策之后。

因此,我们决定去做 - 在我们的组织中采用数据网格。这是BlaBlaCar的数据网状结构之前和之后。

18个月后,我们亲身体会到了数据网格实践在的可做和不可做的事情:

可做的:

1、数据治理是第一位的
数据治理框架是一套规则和工具,用于确保数据所有权、安全性和质量的明确性。在重新组织之前,你的数据治理框架最好已经设置到位。为什么?想象一下,在没有任何标准或流程的情况下,给予一个团队充分的自主权。你会发现你自己在一年后清理了一个巨大而昂贵的混乱。我们要确保不同的领域以类似的语言进行沟通,以应对领域之间的依赖关系、新领域的创建以及人才从一个领域到另一个领域的流动。

2、沟通 沟通 沟通!
采用数据网状结构是一个很好的术语,它意味着变化和不确定性的重新组织。为什么有这么多的不确定性?那些已经采用数据网状结构的人仍然是先驱者,对数据团队的长期影响没有足够的认识。这就是为什么我们要让团队中最伟大的人物参与进来,在决策过程的早期,避免自上而下的决策。我们建议在数据网概念成为一个坚实的计划之前,对团队进行教育:让他们阅读相关内容,找到使用案例,创造一个挑战这个想法的环境。在BlaBlaCar,我们每周都会对计划进行更新,因为它正在慢慢展开。我们还定期举行公开的问答会议。

不可做的:

1、不要按书上说的去做
Deghani的精彩文章How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh是数据网状结构的基础,但每个组织都是独一无二的。请自由地将数据网状结构适应于你的具体公司,不要逐字逐句地拘泥于说明。为什么呢?

  • 首先,过渡到100%网状结构的阶段可能会花费你太多时间,而且成本太高。
  • 第二,你会在文献中找到很少的实用建议,最后可能会在没有食谱的情况下做一个4层的蛋糕。、

在BlaBlaCar,我们愿意在数据网格的关键方面进行交易,以使其适合我们的组织,例如为了减少重复,保持摄入的中心功能。

2、不要一次性开始
Data Mesh是一个思维方式的转变,而不是一个重新组织。心态的转变需要成熟,而这并不是一朝一夕的事。尽管在科技界的数据机构中出现了Mesh热潮,但我们并不建议将机构完全转型。相反,应以小规模的方式实施,并从概念验证开始。
在BlaBlaCar,我们创建了一个单一的数据域,同时保持其他部分不变。这使我们能够定期收集团队的反馈,并通过这些反馈循环来改进。

总而言之,推动一个强大的数据治理框架,并有一个明确的重组计划,而不是匆匆忙忙地进行一个不能适应你的具体情况的重组。

希望我们从战壕中得到的教训能帮助你启动你的数据网。祝您好运!