AI大语言模型、AGI

Claude Sonnet 5发布评测：跑分漂亮，但开发者为何不买账？

#大语言模型LLM

2026-07-01 3K banq

Claude Sonnet 5 发布，但好像没那么香？

新AI模型发布，最大的卖点竟是它很“蠢”？

Anthropic 发布了 Claude Sonnet 5，号称最智能、最自主的 Sonnet 系列模型。它更善于规划、使用工具，甚至在复杂任务上接近了 Opus 4.8 的水平，但价格更低。

然而 Hacker News 上的开发者们很快就发现，这个新模型在性价比上处境尴尬：它在某些任务上的表现其实不如自家更贵的 Opus 4.8，也不如竞争对手。这感觉就像车企发布了一款新车，但数据却告诉你隔壁更便宜的老款跑得更快。

新 Sonnet 跑分不算差但也没多惊艳

Anthropic 给出的官方跑分表里，Claude Sonnet 5 比起上一代 Sonnet 4.6 在推理、工具调用、编程和知识工作等关键领域确实有显著提升。在一些基准测试里，它的得分很接近更高级的 Opus 4.8。

但 Hacker News 上有个叫 XCSme 的老哥自己跑了个测试，发现这玩意儿的水平也就跟 GLM-5.2 差不多，但价格贵了一倍。唯一的优点就是速度快了一倍。他还专门点名了 Sonnet 5 的几个弱点：冷知识问答基本不会，组合工具调用经常出 bug，解谜类测试也容易翻车。

另一位叫 simonw 的大佬则指出一个更搞笑的问题：Sonnet 5 连画个骑自行车的鹈鹕都搞不定，它画出来的东西看起来更像一只鹅。这说明模型在图像生成的理解上可能还是有点毛病。这些来自一线的反馈，跟官方那漂亮的跑分表形成了鲜明对比。

价格和性能图表揭开了尴尬的现实

真正让开发者们炸锅的是 Anthropic 自己公布的成本-性能曲线图。这个图对比了 Sonnet 5、Sonnet 4.6 和 Opus 4.8 在不同“努力程度”（Effort Level）下的表现。所谓努力程度，就是你愿意花多少“思考”时间去解决问题，当然，花的时间越多，花的钱也越多。

结果非常直观：Sonnet 4.6 跟 Opus 4.8 差距巨大，但 Sonnet 5 虽然追上来一点，在大多数情况下，它的性价比依然被 Opus 4.8 按在地上摩擦。用户 doctoboggan 一针见血地总结道：除非你只用 Sonnet 5 的“中”或“低”努力模式，否则还不如直接上 Opus，因为 Opus 在同样的花费下表现更好。换句话说，这个新 Sonnet 存在的最大价值，可能就是作为 Opus 的一个“超低配”平替。

最大的卖点居然是“我不懂网络安全”

整个发布里最诡异的亮点，是 Anthropic 花了大量篇幅强调：Claude Sonnet 5 的网络安全能力比 Opus 模型弱得多。他们甚至在官网上用加粗的图表展示，这模型在开发 Firefox 漏洞利用代码的测试里得了零分，完全搞不定。

按理说，一个代码能力更强的模型，天然就应该更懂安全。但 Anthropic 却把这当成一个优点来宣传，好像在对美国政府喊话：“你看，我真的很蠢，别封杀我。” Hacker News 上的评论简直是一边倒的嘲讽。用户 satvikpendem 就吐槽：“为什么他们要吹嘘这个？这就像在说，我们故意让这个模型变笨，好让它不会惹麻烦。” 更多人担心，一个不懂安全的模型，写出来的代码会不会全是漏洞，变成瑞士奶酪。这种“我很安全因为我没能力”的奇葩逻辑，反而让用户对它的可靠性打上了一个巨大的问号。

开发者们的真实反馈其实比图表更微妙

虽然数据不太好看，但 Anthropic 还是贴出了不少合作方的正面反馈。比如 Lovable 说它更高效，Refraction 说它能独立处理复杂的 GitHub PR，还有个哥们儿说它居然能自己写测试来验证 bug 是否被修复。

这些反馈似乎有点“报喜不报忧”，但或许也说明了一点：对于一些特定的、结构化的任务，Sonnet 5 的自主性确实有提升。可问题在于，对于日常的“辅助编程”，开发者们普遍表示体验不佳。用户 microtonal 就说，一个“过于自主”的模型，反而会在你不想要的时候瞎改代码，搞得你火大。这就像一个喜欢自作主张的实习生，你只是想让他查个资料，他直接帮你把整个项目重构了。

面对一堆竞品它的价格毫无优势

抛开 Anthropic 内部的产品线对比，把 Claude Sonnet 5 放到整个大模型市场里看，问题就更大了。GLM-5.2、DeepSeek 这些模型在价格和性能上完全不虚它，甚至某些方面还更强。很多开发者已经开始用 Kimi K2.7、GLM-5.2 甚至本地运行的 Qwen 模型来替代 Claude。

这些竞品要么更便宜，要么响应更快，要么就是像本地模型那样没有隐私泄露和网络延迟的烦恼。虽然 Claude Sonnet 5 在发布初期有打折价（每百万输入 2 美元），但活动一过，它的价格就变得毫无吸引力。而且 Anthropic 还偷偷换了个新版分词器，同样的输入可能会消耗更多 token，相当于变相涨价。正如用户所言：“它好像处在一种不上不下的位置——对于日常任务太贵，对于复杂任务又不够聪明。”

我们对新模型发布已经产生审美疲劳

每次有新模型发布，Hacker News 上的讨论都像是一场精心编排的复读机大赛。总会有人说“跑分没意义”，总会有人吹“实际体验好”，总会有人提“成本是关键”。这次关于 Claude Sonnet 5 的讨论，也未能免俗地陷入了这种循环。

但这次有个新情况：越来越多的人开始感到疲惫和失望。很多人开始反思，这些不断刷新的跑分，到底跟我们的真实需求有多大关系？对于普通用户或普通开发者，一个稳定、可靠、听话的助手，远比一个偶尔能爆发小宇宙但日常却爱自作主张的“智能体”要重要得多。这就像找队友，你肯定不想要一个时而超神时而超鬼的“神经刀”。

一个不上不下的产品一个进退两难的时代

Claude Sonnet 5 就像是 AI 发展现阶段的一个缩影。它的发布让我们看到，模型能力的提升正在变得边际化，而厂商的营销话术和实际体验之间的鸿沟却在扩大。为了规避监管风险，厂商甚至会刻意削弱模型在某些领域的能力，并以“安全”之名进行宣传。这种既要又要的姿态，最终让用户感到困惑。

说到底，对大多数开发者而言，好用、便宜、不折腾，永远比厂商宣称的“更智能”和“更自主”更有吸引力。Sonnet 5 的尴尬处境，或许正是整个行业从野蛮生长进入精耕细作时代所必须经历的阵痛。只有当泡沫褪去，我们才能真正看清，哪些模型是在裸泳。

总结

当一个 AI 模型最大的卖点变成了“我不擅长做危险的事情”；当它的最新版本在性价比上甚至打不过自家的旧款旗舰。

我们或许该重新思考：

我们到底需要一个会耍小聪明的“智能体”，还是一个踏实可靠的助手？