在过去的几周里,数据合约一直是一个热门话题:
- Chad 发表了数据合约的工程指南,
- Jake 发表了合约驱动的平台,
- David 发表了关于数据合约的三部分系列
- Yali Sassoon 发表了为什么数据合约是一个好主意。
我想这条推文总结了所有内容:
数据合约就是每个数据集都应该有一个数据契约,由一个模式schema加上任何 SLA、语义、策略等和一个版本 ID 组成。
这可能会让你觉得这是一个不言而喻的好主意,但文章说它似乎在数据工程师之间引起了激烈的争论。
糟糕的命名会如何显着影响主流公司的采用曲线:
数据合约意味着它缓慢且官僚主义。
我理解为什么由于组织结构的原因,在传统数据仓库中简单地添加列可能需要几个月的时间才能推出。
命名反映其目的是很重要的。
因此我称之为“Schema Ops”。从可靠性工程的成功中获得灵感。
“Schema Ops” - 是一种集体操作,用于定义数据结构、强制约束以及在不同领域之间查找和共享。
业务连续性和不间断的模式schema管理是 Schema Ops 的重中之重。