四大顶级AI模型画银行架构图竟然全部翻车

本文通过对比GPT-4o、Claude 4.0 Sonnet、Sonar和Grok 3四款大模型在生成银行推荐系统架构图（C4模型）中的表现，发现当前AI尚无法替代软件架构师。尽管部分模型能输出初步设计，但在系统分层、技术权衡与现实约束考量上仍显不足，缺乏深度思考与落地能力。

城市还未完全沉睡，写字楼的灯光一盏接一盏熄灭，只有少数几扇窗还亮着。某个程序员靠在椅子上，手指无意识地敲击着键盘，屏幕上的架构图还没画完，而他已经在想：有没有一种可能，让AI替我画完这张图？不是草稿，不是灵感，而是真正能拿去给技术总监点头、产品团队拍板、开发兄弟们照着干的“生产级”系统架构图。

这不再是一个科幻问题。随着大模型（LLM）能力的突飞猛进，越来越多的工程师开始尝试把原本属于“架构师”的任务交给AI：设计系统、绘制C4模型、定义服务边界、甚至推演技术选型。

于是，一场看似平静却暗流汹涌的实验悄然展开——我们把同一个复杂的银行推荐系统需求，扔给了四个目前市面上最被看好的大模型：来自OpenAI的GPT-4o、Anthropic的Claude 4.0 Sonnet、Perplexity的Sonar，以及马斯克旗下xAI的Grok 3。

我们的目标很明确：看看它们谁能真正扮演一位合格的“软件架构师”。

案例系统名叫“熊猫服务”（Panda Service），听起来有点萌，但背后的需求可一点都不轻松。银行高层希望提升用户粘性，通过机器学习分析客户的行为轨迹、交易历史，甚至接入第三方金融数据，为每个人精准推荐适合的金融产品——可能是高利率的储蓄账户，也可能是某张刚上线的联名信用卡。

这个服务不仅要对内支撑多个业务系统，还要对外服务千万级用户的手机App和网页端。它必须高可用、低延迟、合规安全，还得能随着数据增长弹性扩展。

我们给所有模型的提示词（prompt）完全一致，要求它们基于C4模型输出四层架构图：

我们期待看到的，不只是图形，更是背后的思考——为什么用这个技术栈？如何保障数据一致性？监控怎么做？灰度发布如何设计？

结果令人唏嘘：

GPT-4o：
这位曾经在无数开发者心中封神的模型，表现得像个刚毕业的实习生。它能列出银行网关、特征存储、模型推理这些关键词，也能画出几个方框和箭头，但一旦深入组件之间的交互逻辑，就开始语焉不详。

更离谱的是，它把“容器图”画成了面向对象的类图，RecommendationEngine、RequestValidator这些本该是服务名的东西，被它当成了Python类来设计。

这就像让人画一栋大楼的楼层分布，结果他交上来的是每间房里的家具摆放图。代码图更是直接复制了容器图的内容，仿佛在说：“我不知道该写啥，那就再抄一遍吧。”

Claude 4.0 Sonnet则显得老成得多：
它清楚地把系统划分为API层、ML流水线、数据层和基础设施四大区域，组件设计上采用了经典的Controller-Service-Repository分层模式，代码图也引入了工厂模式、依赖注入等设计模式。

虽然它也没完全分清“组件”和“代码”的边界，但至少方向是对的。它像是一个有几年经验的中级工程师，知道架构不是堆砌技术名词，而是要有层次、有抽象、有可维护性。

它画出的那几张图，虽然细节仍需打磨，但已经能拿去开会了。

Sonar的表现则像极了某些“过度聪明”的新人：
它把所有可能涉及的角色都列了出来——银行员工、数据分析师、风控团队、运维工程师……仿佛在画一幅社会关系图而非系统架构。它的图里充满了黑盒子和箭头，技术选型全是“REST API”“批处理训练”这类泛泛而谈的描述，没有任何权衡取舍的讨论。

它像是在用PPT做架构，追求的是“看起来完整”，而不是“能落地”。

至于Grok 3，它的表现让人怀疑它是不是根本没理解任务：
它几乎全程沉迷于写代码，反复解释InferenceEngine类怎么调用ModelLoader，怎么处理异常，却对整个系统的部署拓扑、数据流向、服务依赖避而不谈。

它像一个技术狂热者，眼里只有代码的优雅，却忘了系统是一个有机整体。

这场实验的结论其实早在意料之中：目前的大模型，哪怕是顶尖的那几位，依然无法替代真正的软件架构师。

它们可以是高效的助手，帮你快速生成初稿、提供技术选项、甚至帮你查漏补缺，但一旦涉及到深层次的权衡、对业务的理解、对组织能力的适配，它们就露出了“无根之木”的本质。

它们活在一个“完美世界”里——没有遗留系统的技术债，没有团队的技术栈限制，没有预算审批的博弈，也没有明天就要上线的紧急需求。

真正的架构设计，从来不是技术的堆砌，而是在无数约束中寻找最优解的艺术。

一个资深架构师会问：我们团队熟悉Kafka吗？我们的CI/CD流程支持蓝绿部署吗？监管要求数据留存多久？这些现实问题，AI目前还无法感知，更别说回答。

所以，别指望AI能替你画出那张决定系统命运的架构图。它或许能帮你省下两小时的PPT时间，但绝不可能替你承担那个在会议室里被所有人盯着、解释为何选择微服务而非单体的夜晚。技术可以进化，但责任，始终在人身上。

而那个深夜加班的程序员，最终还是关掉了AI聊天窗口，深吸一口气，重新打开了画图工具。