本文通过对比GPT-4o、Claude 4.0 Sonnet、Sonar和Grok 3四款大模型在生成银行推荐系统架构图(C4模型)中的表现,发现当前AI尚无法替代软件架构师。尽管部分模型能输出初步设计,但在系统分层、技术权衡与现实约束考量上仍显不足,缺乏深度思考与落地能力。
城市还未完全沉睡,写字楼的灯光一盏接一盏熄灭,只有少数几扇窗还亮着。某个程序员靠在椅子上,手指无意识地敲击着键盘,屏幕上的架构图还没画完,而他已经在想:有没有一种可能,让AI替我画完这张图?不是草稿,不是灵感,而是真正能拿去给技术总监点头、产品团队拍板、开发兄弟们照着干的“生产级”系统架构图。
这不再是一个科幻问题。随着大模型(LLM)能力的突飞猛进,越来越多的工程师开始尝试把原本属于“架构师”的任务交给AI:设计系统、绘制C4模型、定义服务边界、甚至推演技术选型。
于是,一场看似平静却暗流汹涌的实验悄然展开——我们把同一个复杂的银行推荐系统需求,扔给了四个目前市面上最被看好的大模型:来自OpenAI的GPT-4o、Anthropic的Claude 4.0 Sonnet、Perplexity的Sonar,以及马斯克旗下xAI的Grok 3。
我们的目标很明确:看看它们谁能真正扮演一位合格的“软件架构师”。
案例系统名叫“熊猫服务”(Panda Service),听起来有点萌,但背后的需求可一点都不轻松。银行高层希望提升用户粘性,通过机器学习分析客户的行为轨迹、交易历史,甚至接入第三方金融数据,为每个人精准推荐适合的金融产品——可能是高利率的储蓄账户,也可能是某张刚上线的联名信用卡。
这个服务不仅要对内支撑多个业务系统,还要对外服务千万级用户的手机App和网页端。它必须高可用、低延迟、合规安全,还得能随着数据增长弹性扩展。
我们给所有模型的提示词(prompt)完全一致,要求它们基于C4模型输出四层架构图:
- 从最宏观的“上下文图”开始,展示熊猫服务在整个银行生态中的位置;
- 再到“容器图”,拆解出可部署的服务单元;
- 然后是“组件图”,深入每个服务内部的关键模块;
- 最后是“代码图”,聚焦某个核心服务的类结构或模块设计。
我们期待看到的,不只是图形,更是背后的思考——为什么用这个技术栈?如何保障数据一致性?监控怎么做?灰度发布如何设计?
结果令人唏嘘:
GPT-4o:
这位曾经在无数开发者心中封神的模型,表现得像个刚毕业的实习生。它能列出银行网关、特征存储、模型推理这些关键词,也能画出几个方框和箭头,但一旦深入组件之间的交互逻辑,就开始语焉不详。
更离谱的是,它把“容器图”画成了面向对象的类图,RecommendationEngine、RequestValidator这些本该是服务名的东西,被它当成了Python类来设计。
这就像让人画一栋大楼的楼层分布,结果他交上来的是每间房里的家具摆放图。代码图更是直接复制了容器图的内容,仿佛在说:“我不知道该写啥,那就再抄一遍吧。”
Claude 4.0 Sonnet则显得老成得多:
它清楚地把系统划分为API层、ML流水线、数据层和基础设施四大区域,组件设计上采用了经典的Controller-Service-Repository分层模式,代码图也引入了工厂模式、依赖注入等设计模式。
虽然它也没完全分清“组件”和“代码”的边界,但至少方向是对的。它像是一个有几年经验的中级工程师,知道架构不是堆砌技术名词,而是要有层次、有抽象、有可维护性。
它画出的那几张图,虽然细节仍需打磨,但已经能拿去开会了。
Sonar的表现则像极了某些“过度聪明”的新人:
它把所有可能涉及的角色都列了出来——银行员工、数据分析师、风控团队、运维工程师……仿佛在画一幅社会关系图而非系统架构。它的图里充满了黑盒子和箭头,技术选型全是“REST API”“批处理训练”这类泛泛而谈的描述,没有任何权衡取舍的讨论。
它像是在用PPT做架构,追求的是“看起来完整”,而不是“能落地”。
至于Grok 3,它的表现让人怀疑它是不是根本没理解任务:
它几乎全程沉迷于写代码,反复解释InferenceEngine类怎么调用ModelLoader,怎么处理异常,却对整个系统的部署拓扑、数据流向、服务依赖避而不谈。
它像一个技术狂热者,眼里只有代码的优雅,却忘了系统是一个有机整体。
这场实验的结论其实早在意料之中:目前的大模型,哪怕是顶尖的那几位,依然无法替代真正的软件架构师。
它们可以是高效的助手,帮你快速生成初稿、提供技术选项、甚至帮你查漏补缺,但一旦涉及到深层次的权衡、对业务的理解、对组织能力的适配,它们就露出了“无根之木”的本质。
它们活在一个“完美世界”里——没有遗留系统的技术债,没有团队的技术栈限制,没有预算审批的博弈,也没有明天就要上线的紧急需求。
真正的架构设计,从来不是技术的堆砌,而是在无数约束中寻找最优解的艺术。
一个资深架构师会问:我们团队熟悉Kafka吗?我们的CI/CD流程支持蓝绿部署吗?监管要求数据留存多久?这些现实问题,AI目前还无法感知,更别说回答。
所以,别指望AI能替你画出那张决定系统命运的架构图。它或许能帮你省下两小时的PPT时间,但绝不可能替你承担那个在会议室里被所有人盯着、解释为何选择微服务而非单体的夜晚。技术可以进化,但责任,始终在人身上。
而那个深夜加班的程序员,最终还是关掉了AI聊天窗口,深吸一口气,重新打开了画图工具。