数据工程中大奖章架构:青铜、白银和黄金


在数据的世界里,我们每天都在跟“混乱”打交道。日志、埋点、订单、用户行为、设备信号……这些原始数据像潮水一样涌进系统,杂乱无章、格式不一、真假难辨。如何把这一堆看似无用的“数字垃圾”变成企业真正能用、敢用、爱用的信息资产?过去十年,一个叫“Medallion Architecture”(勋章架构)的模型,成了无数数据团队的灯塔。

勋章架构/大奖章架构?这名字听起来有点中二——青铜、白银、黄金,像是奥运奖牌榜,而不是严肃的数据架构。

可正是这种简单到近乎幼稚的命名,让它在工程师、分析师、产品经理之间迅速传播开来。
你说“这数据在银层”,大家立刻明白:它已经清洗过,结构化了,可以用来做分析,但还不能直接上老板的PPT。
你说“这是金层数据”,所有人心里都有数:这是公司统一口径的KPI,是决策依据,动不得改不得。

这种共识,比任何技术细节都重要。术语统一语言就是共识!

青铜层:
这是所有故事的起点。这里不做判断,不搞清洗,也不追求完美。它的使命只有一个:原封不动地接住所有 incoming data。无论是 Kafka 里蹦出来的用户点击流,还是数据库的 CDC 变更日志,统统照单全收。

你可以把它想象成一个永不删除的“数据保险箱”。哪怕某个字段今天是字符串,明天变整数,它也不拦着,只负责记录“当时就是这样的”。正因为如此,青铜层的数据往往充满噪音——重复、缺失、错乱,甚至荒谬。但正因如此,它才最真实。

一旦下游出了问题,回溯到这里,总能找到源头。很多团队犯的第一个错,就是跳过清洗直接拿青铜数据做报表。

结果呢?数字对不上、口径打架、信任崩塌。这不是数据的问题,是人性的贪婪:总想走捷径,却忘了地基不稳,楼盖得再高也会塌。

白银层
如果说青铜是“照单全收”,那白银就是“认真整理”。在这里,数据开始被赋予意义。用户 ID 被归一化,订单状态被标准化,时间戳被统一时区,脏数据被剔除,重复记录被合并。更重要的是,不同来源的数据开始关联起来——点击行为能匹配到具体用户,订单能对应到商品目录。这个过程不追求实时,但必须可靠。白银层的目标不是炫技,而是建立“可信实体”。

它是整个数据体系的“清洁中转站”,既为后续的深度加工打基础,也支持一些对时效性要求不高的运营监控。比如客服系统查用户历史,或者风控团队看近三天的异常登录,都可以直接从银层取数。

可问题也出在这里:有些团队太依赖白银,甚至直接在里面算起 GMV、DAU 这类核心指标。

久而久之,每个部门都有自己的“白银版 KPI”,数据混乱重现江湖。这不是技术失败,而是治理缺位。

###黄金层
这才算真正进入“权威发布”阶段。

这里的每一张表,都是经过深思熟虑的业务定义。

什么是“活跃用户”?怎么算“成交额”?是否包含退款?这些看似简单的概念,在企业内部往往争论多年。黄金层的任务,就是一锤定音。

它用维度建模的方式,把复杂的业务逻辑固化成稳定的宽表或汇总表,供 BI 报表、管理层 dashboard 使用。更新频率通常是小时级或天级,追求的是稳定和一致,而不是快。你可以容忍昨天的数据今天才出来,但不能容忍同一个指标今天是 100 万,明天变成 120 万仅仅因为口径变了。

黄金层的本质,是一套“企业数据宪法”。可现实是,越来越多的人开始挑战它的边界:我们能不能让黄金也实时更新?能不能让它支持实时大屏?答案很残酷:不能。

一旦你试图让黄金承担实时任务,整个架构就会变得脆弱不堪。ETL 变成 ELT 再变成“永远在跑”,资源消耗飙升,失败率上升,最终谁都不敢信这个数据。

这就引出了一个新的命题:我们不仅要“知道发生了什么”,还要“马上做出反应”。这就是“铂金层”的由来。它不是“更高级的黄金”,而是完全不同的物种。如果说黄金服务于“看”,那铂金服务于“动”。它是数据从被动记录走向主动干预的关键跃迁。

举个例子:一个电商平台发现某用户连续浏览某商品十分钟,立刻通过 API 推送优惠券;银行系统检测到一笔异常交易,秒级冻结账户;推荐引擎根据用户最新点击,动态调整首页内容。

这些场景,既需要实时数据流(来自青铜或白银),也需要历史行为模式(来自黄金),还要有模型推理能力。

铂金层就是把这些要素融合在一起的“作战指挥室”。它产出的不再是报表,而是决策信号、特征向量、API 响应。消费者也不再是人类分析师,而是机器、应用、自动化流程。

但铂金层的建设,远比前面三层复杂。它要求数据团队和算法团队深度协作,要求基础设施支持低延迟、高并发,要求数据治理延伸到模型生命周期。更关键的是,它改变了数据的价值定位——从“支持决策”变为“驱动行动”。

一家公司有没有真正的铂金层,不是看它有没有实时计算平台,而是看它的数据能不能直接改变产品行为、影响客户体验、创造商业价值。

回头看这套架构,你会发现它早已超越了最初的三层模型。它不再只是一个数据分层的工具,而是一套完整的数据哲学:从原始记录到可信实体,从权威指标到智能驱动,层层递进,环环相扣。每一个层级都有清晰的边界和责任,避免了混乱和重复建设。

更重要的是,它提供了一种“共同语言”,让技术与业务能在同一张地图上对话。

当然,工具的选择也很有意思:
青铜层常见的是 Kafka、S3、Delta Lake;白银和黄金多用 Spark、Flink、Airflow 搭配数据仓库如 Snowflake 或 Databricks;
而铂金层则离不开特征平台、模型服务、实时数据库如 Redis 或 Materialize。

但这不重要,真正重要的是思想。哪怕你用 MySQL + Python 脚本,只要遵循这个分层逻辑,也能构建出健壮的数据体系。

最后想说,数据工程从来不是炫技。它是一场关于秩序与混沌的持久战。Medallion 架构的魅力,就在于它用极简的框架,承载了极复杂的现实。它告诉我们:好的系统,不在于多聪明,而在于够清晰。

青铜记录真相,白银还原事实,黄金定义共识,铂金创造价值。四层合一,才是现代数据能力的完整拼图。