Claude Sonnet 5 发布,但好像没那么香?
新AI模型发布,最大的卖点竟是它很“蠢”?
Anthropic 发布了 Claude Sonnet 5,号称最智能、最自主的 Sonnet 系列模型。它更善于规划、使用工具,甚至在复杂任务上接近了 Opus 4.8 的水平,但价格更低。
然而 Hacker News 上的开发者们很快就发现,这个新模型在性价比上处境尴尬:它在某些任务上的表现其实不如自家更贵的 Opus 4.8,也不如竞争对手。这感觉就像车企发布了一款新车,但数据却告诉你隔壁更便宜的老款跑得更快。
新 Sonnet 跑分不算差但也没多惊艳
Anthropic 给出的官方跑分表里,Claude Sonnet 5 比起上一代 Sonnet 4.6 在推理、工具调用、编程和知识工作等关键领域确实有显著提升。在一些基准测试里,它的得分很接近更高级的 Opus 4.8。
但 Hacker News 上有个叫 XCSme 的老哥自己跑了个测试,发现这玩意儿的水平也就跟 GLM-5.2 差不多,但价格贵了一倍。唯一的优点就是速度快了一倍。他还专门点名了 Sonnet 5 的几个弱点:冷知识问答基本不会,组合工具调用经常出 bug,解谜类测试也容易翻车。
另一位叫 simonw 的大佬则指出一个更搞笑的问题:Sonnet 5 连画个骑自行车的鹈鹕都搞不定,它画出来的东西看起来更像一只鹅。这说明模型在图像生成的理解上可能还是有点毛病。这些来自一线的反馈,跟官方那漂亮的跑分表形成了鲜明对比。
价格和性能图表揭开了尴尬的现实
真正让开发者们炸锅的是 Anthropic 自己公布的成本-性能曲线图。这个图对比了 Sonnet 5、Sonnet 4.6 和 Opus 4.8 在不同“努力程度”(Effort Level)下的表现。所谓努力程度,就是你愿意花多少“思考”时间去解决问题,当然,花的时间越多,花的钱也越多。
结果非常直观:Sonnet 4.6 跟 Opus 4.8 差距巨大,但 Sonnet 5 虽然追上来一点,在大多数情况下,它的性价比依然被 Opus 4.8 按在地上摩擦。用户 doctoboggan 一针见血地总结道:除非你只用 Sonnet 5 的“中”或“低”努力模式,否则还不如直接上 Opus,因为 Opus 在同样的花费下表现更好。换句话说,这个新 Sonnet 存在的最大价值,可能就是作为 Opus 的一个“超低配”平替。
最大的卖点居然是“我不懂网络安全”
整个发布里最诡异的亮点,是 Anthropic 花了大量篇幅强调:Claude Sonnet 5 的网络安全能力比 Opus 模型弱得多。他们甚至在官网上用加粗的图表展示,这模型在开发 Firefox 漏洞利用代码的测试里得了零分,完全搞不定。
按理说,一个代码能力更强的模型,天然就应该更懂安全。但 Anthropic 却把这当成一个优点来宣传,好像在对美国政府喊话:“你看,我真的很蠢,别封杀我。” Hacker News 上的评论简直是一边倒的嘲讽。用户 satvikpendem 就吐槽:“为什么他们要吹嘘这个?这就像在说,我们故意让这个模型变笨,好让它不会惹麻烦。” 更多人担心,一个不懂安全的模型,写出来的代码会不会全是漏洞,变成瑞士奶酪。这种“我很安全因为我没能力”的奇葩逻辑,反而让用户对它的可靠性打上了一个巨大的问号。
开发者们的真实反馈其实比图表更微妙
虽然数据不太好看,但 Anthropic 还是贴出了不少合作方的正面反馈。比如 Lovable 说它更高效,Refraction 说它能独立处理复杂的 GitHub PR,还有个哥们儿说它居然能自己写测试来验证 bug 是否被修复。
这些反馈似乎有点“报喜不报忧”,但或许也说明了一点:对于一些特定的、结构化的任务,Sonnet 5 的自主性确实有提升。可问题在于,对于日常的“辅助编程”,开发者们普遍表示体验不佳。用户 microtonal 就说,一个“过于自主”的模型,反而会在你不想要的时候瞎改代码,搞得你火大。这就像一个喜欢自作主张的实习生,你只是想让他查个资料,他直接帮你把整个项目重构了。
面对一堆竞品它的价格毫无优势
抛开 Anthropic 内部的产品线对比,把 Claude Sonnet 5 放到整个大模型市场里看,问题就更大了。GLM-5.2、DeepSeek 这些模型在价格和性能上完全不虚它,甚至某些方面还更强。很多开发者已经开始用 Kimi K2.7、GLM-5.2 甚至本地运行的 Qwen 模型来替代 Claude。
这些竞品要么更便宜,要么响应更快,要么就是像本地模型那样没有隐私泄露和网络延迟的烦恼。虽然 Claude Sonnet 5 在发布初期有打折价(每百万输入 2 美元),但活动一过,它的价格就变得毫无吸引力。而且 Anthropic 还偷偷换了个新版分词器,同样的输入可能会消耗更多 token,相当于变相涨价。正如用户所言:“它好像处在一种不上不下的位置——对于日常任务太贵,对于复杂任务又不够聪明。”
我们对新模型发布已经产生审美疲劳
每次有新模型发布,Hacker News 上的讨论都像是一场精心编排的复读机大赛。总会有人说“跑分没意义”,总会有人吹“实际体验好”,总会有人提“成本是关键”。这次关于 Claude Sonnet 5 的讨论,也未能免俗地陷入了这种循环。
但这次有个新情况:越来越多的人开始感到疲惫和失望。很多人开始反思,这些不断刷新的跑分,到底跟我们的真实需求有多大关系?对于普通用户或普通开发者,一个稳定、可靠、听话的助手,远比一个偶尔能爆发小宇宙但日常却爱自作主张的“智能体”要重要得多。这就像找队友,你肯定不想要一个时而超神时而超鬼的“神经刀”。
一个不上不下的产品一个进退两难的时代
Claude Sonnet 5 就像是 AI 发展现阶段的一个缩影。它的发布让我们看到,模型能力的提升正在变得边际化,而厂商的营销话术和实际体验之间的鸿沟却在扩大。为了规避监管风险,厂商甚至会刻意削弱模型在某些领域的能力,并以“安全”之名进行宣传。这种既要又要的姿态,最终让用户感到困惑。
说到底,对大多数开发者而言,好用、便宜、不折腾,永远比厂商宣称的“更智能”和“更自主”更有吸引力。Sonnet 5 的尴尬处境,或许正是整个行业从野蛮生长进入精耕细作时代所必须经历的阵痛。只有当泡沫褪去,我们才能真正看清,哪些模型是在裸泳。
总结
当一个 AI 模型最大的卖点变成了“我不擅长做危险的事情”;当它的最新版本在性价比上甚至打不过自家的旧款旗舰。
我们或许该重新思考:
我们到底需要一个会耍小聪明的“智能体”,还是一个踏实可靠的助手?