数据工程中九大痛点

1、业务领域与数据工程脱节:业务中没有人愿意掌握数据的所有权,包括数据的生成方式、业务规则是什么等。

2、上游分析师是否负责 QA?常见的工作流程是分析师试图解决问题,遇到数据质量问题,然后无法证明或证明结果的合理性。

3、上游数据质量问题:使得数据工程团队无法高效、可靠地向消费者提供高质量的数据。你可以让几个独立的数据产品团队致力于花哨的 ML 建模,在 Spark GPU 集群上花费数千美元,但模型的准确性却比随机模型更差。这一切都是因为上游数据质量很差。

4、最终构建了没有人使用的数据产品(表格、仪表板、预测/细分):95% 的 DE 工作是供某种业务利益相关者内部使用的。使用或不使用它取决于他们。我可以说,利益相关者使用的内容还没有超过我根据他们的要求为他们构建的内容的 20%。当您开始并且级别较低时,这可能不是问题,因为您可以处理很多事情。但最终你会失去动力去做你知道的东西,因为事实上没有人会使用或看到。

5、其他 IT 团队无法让数据团队获得高效完成工作所需的资源。

6、康威定律和内部政治

7、所有与数据相关的工作就像卫生一样,事情顺利时没有人关心。当事情不顺利时,每个人都会责骂。
最大的痛点是,除非出现问题,否则人们不会关心。当出现问题时,每个人都会挤在一起指责数据团队,DE 会争先恐后地贴上创可贴,然后集体讨论永久纠正措施。

8、那些无能的人占据了所有高级职位,并且不采用新技术或想法,因为他们不想在出现问题时破坏现状。

9、像软件开发团队一样对待数据团队并期待其结果。数据团队的运作方式与软件开发团队截然不同,软件开发团队需要独特的流程和衡量标准才能取得成功。软件开发是一个完善的过程,而数据产品的开发仍在不断发展。