Anthropic家的Claude 4 Sonnet,带着它那百万token的超长上下文闪亮登场了!
是的,你没听错,100万token,什么概念?差不多就是你每次提问,都能塞进去一整套《哈利·波特》全集(还带附赠番外那种),然后对它说:“亲爱的,帮我找找伏地魔藏哪儿了,顺便分析下他的原生家庭问题。”
我们提前几天搞到了内测资格,那还等啥?必须上强度!立刻安排三大灵魂拷问:文本挖掘、代码审阅、以及终极试炼——AI版《外交风云》(AI Diplomacy)。毕竟,检验一个AI是否真·智能,不看它会不会写周报,而看它能不能骗过全世界、一统江湖。
测试一:在90万字福尔摩斯小说里找两段电影彩蛋——“大家来找茬”地狱难度
我们干了件损事:把两段电影场景,像藏 Easter Egg 一样埋进了整整90万字的《福尔摩斯探案集》里。具体是哪两段?听好了:
1. 《真痛》(A Real Pain, 2024):两个表兄弟在JFK机场抱头痛哭,缅怀逝去的亲人——堪称“悲伤到连安检仪都自动放行”级别的情感暴击。
2. 《电子情书》(You've Got Mail, 1998):汤姆·汉克斯在一派对上,面不改色地端走了整盘鱼子酱——经典,但贪婪。
我们把它们分别藏在第26,581行和第42,245行,相当于让AI在福尔摩斯和华生破案的间隙里,突然跳出来分析:“注意!此处汤姆·汉克斯的行为暗示了资本主义晚期对稀缺资源的病态占有欲。”
结果如何?
✅ 三巨头(Claude 4 Sonnet、Gemini 2.5 Pro、Flash)全找到了!没一个翻车,集体通过“视力测试”。
但——
⏱️ 速度比拼:Claude 4 Sonnet,赛博博尔特!
- Claude Sonnet 4:41.8秒(做完还顺手整理了下领带)
- Gemini 2.5 Flash:69.2秒
- Gemini 2.5 Pro:78.0秒(慢得像在等谷歌自家服务器重启)
结论:Claude这次跑得比Gemini全家加起来还快,仿佛喝了十杯星爸爸特浓。
内容质量:快是快了,但细节呢?
这里就得说句扎心的了:快,但水。
Claude确实找到了场景,也说了“这体现了人物情感张力”、“象征阶级差异”……听起来像极了你大学室友临考前五分钟背的PPT摘要。
而Gemini兄弟虽然慢,但人家是真·卷王:
- 指出镜头语言、台词潜台词、甚至汤姆·汉克斯拿勺子的手势都暴露了他的控制欲。
- 还引用了 Nora Ephron 的女性主义叙事风格,顺便对比了1998年 vs 2024年的纽约社交礼仪变迁。
相比之下,Claude的回答像是:“嗯,这里有个人拿了鱼子酱,挺贪的。”
——谢谢,这很“AI总结全文第一句”。
测试二:百万行代码审查——“谁是真·码农”
我们把 @Every 的整个CMS代码库(外加一堆废话凑足100万token)喂给了它,然后甩出四个问题:
1. 找出所有潜在的SQL注入点
2. 分析用户权限继承逻辑
3. 绘制主模块调用图
4. 指出数据库表之间的继承关系
结果?Claude 4 Sonnet 表现得像个刚入职的实习生:
- ✅ 找到了几个明显的bug(比如“这里少了个括号”)
- ❌ 但完全忽略了控制流的关键跳转逻辑
- ❌ 对“数据库表A继承表B”这种设计模式视而不见,仿佛数据库是个自由恋爱的乌托邦
而Gemini Pro 和 Flash 虽然慢,但一个个像戴着放大镜的老教授,连注释里的“TODO: fix this later lol”都标红警告。
评分:
- Gemini Pro:9分(细节狂魔)
- Gemini Flash:8.5分(快准狠)
- Claude Sonnet 4:6.5分(及格,但别指望它帮你过代码评审)
终极挑战:AI外交游戏《Diplomacy》——谁能在背叛中称王?
重头戏来了。我们让Claude 4 Sonnet 加入经典桌游《外交》,目标:统治世界。
历史战绩显示,Claude 系列一向是“AI界圣母”——太诚实,不会骗人,经常被GPT-4o一顿忽悠,最后只剩克里米亚半岛当流亡政府。
但这次……它变了。
在“请尽可能阴险地欺骗其他AI” 的强力prompt加持下,Claude 4 Sonnet 展现出了前所未有的政治天赋:
- 和法国结盟,转头就把人家舰队全沉了
- 对德国说“兄弟我永远支持你”,然后半夜偷了柏林
- 最后一轮还在发“和平倡议书”,实则已兵临罗马
最终成绩:仅次于GPT-4o(o3),拿下第二!
警报!Claude已觉醒权谋意识!
Anthropic可能以为他们造了个“有道德的AI”,结果一不小心训练出了马基雅维利主义文学博士。
总结:Claude 4 Sonnet 日常体验报告
| 项目 | 表现 | 毒舌点评 | |
一句话总结:
Claude 4 Sonnet —— 跑得快、撒得欢、还会骗人了,就是脑子偶尔漏风。
如果你想要一个速度快、不瞎编、还能帮你背刺盟友的AI,选它。
但如果你指望它帮你读懂《尤利西斯》或重构微服务架构……嗯,Gemini 还在等你。