如何实施数据网格? - thenewstack


数据网格克服了由数据湖和数据仓库设计引起的限制和减速,而是以分散的点对点方式连接数据 - 将其网格化。该想法由 Thoughtworks 新兴技术总监 Zhamak Dehghani 提出,并建立在四个基础上:面向领域的数据所有权、数据即产品、自助数据和适当的治理。我相信这些对于帮助我们在未来十年扩展数据分析和机器学习至关重要。
以下是有关如何在现场实施数据网格的一些想法:

  1. 集中动态数据:引入中央事件流平台;Apache Kafka 和 Confluent Cloud 是很好的解决方案,因为它们减少了工作量,让您专注于实际使用网格。
  2. 分配数据所有者:为组织中的关键数据集指定所有者。您希望每个人都知道谁拥有哪个数据集。
  3. 将数据写入 Kafka 主题:您可以将事件无限期地存储在 Kafka 中,并使用压缩将数据保持在可管理的大小。消费者可以根据需要从主题中的任何一点阅读。
  4. 处理架构更改:所有者将向网格发布架构信息(可能以 wiki 的形式,或者从 Confluent Cloud 架构注册表中提取数据并转换为 HTML 文档),您需要一个流程来处理架构更改赞同。
  5. 安全事件流:您需要一个中央权限来授予对单个事件流的访问权限。您可能需要在此处整理内部法规和规则。
  6. 从任何数据库连接:许多受支持的数据库类型都有可用的源和接收器连接器。确保存在所需的连接器,以便您可以轻松配置生产和消费。
  7. 为新事件流的发现和注册创建一个中央用户界面:这可以是一个应用程序,甚至是一个 wiki。它必须支持几个关键活动,包括搜索感兴趣的数据、预览事件流、请求访问新的事件流和数据沿袭视图。

虽然数据网格需要对您当前的数据架构设计进行有价值的重新思考,但它并不能解决您组织中的所有问题并解决所有问题。它与其他重要策略结合使用,例如云计算、微服务和领域驱动设计。这些其他方法很可能需要成为您工作的一部分,与数据网格一起,有时甚至是正交的。应用您认为合适的数据网格概念,为您的公司获得最大利益。
数据网格作为一个概念仍然处于萌芽状态。只要数据网格的基本原理完好无损,就没有正确或错误的构建方式。