Claude 4发布:全球首款防生化核弹举报AI
Claude AI双胞胎兄弟震撼出道!这次连造原子弹的坏蛋都防得住!
AI界又搞大事情啦!Anthropic公司刚刚甩出王炸——Claude Opus 4和Claude Sonnet 4两兄弟闪亮登场!这俩可不是普通AI,人家自带"防暴盾牌",连制造生化武器、核武器的邪恶计划都能当场识破!(此处应有掌声)
学霸哥哥Opus 4:
智商高到能连续解题几小时不卡壳,就像你们班那个永远考第一的学神
打代码水平逆天,在程序员奥赛里能拿72.5分(满分100哦)
玩《宝可梦》游戏时居然会自己做攻略笔记,这记性比你们期末抱佛脚强多了吧?
️ 全能弟弟Sonnet 4:
GitHub程序员叔叔们爱死它了,查bug速度比3.7版本快两倍
现在给代码提建议时,耍小聪明的概率直降65%(再也不敢糊弄人类了)
处理复杂指令时,还会自动写"解题步骤摘要",跟学霸的错题本似的
✨ 黑科技三件套:
文件记忆术:上传过的论文/代码,过一个月再问它还记得!(终于不用像老AI那样金鱼记忆了)
代码透视眼:现在能直接把数据分析成图表,数学作业救星啊!
编程小助手:在VS Code里实时改代码,连GitHub的报错都能自动修(班主任再也不用担心我的编程作业)
️ 安全防护堪比复仇者联盟:
内置"宪法过滤器",谁敢问怎么造毒气?当场红色警报!
模型权重锁在"数字保险箱",要两个人同时输密码才能动
还搞了个"黑客悬赏令",欢迎白客来找漏洞领赏金
虽然科学家说还不确定Opus 4到底需不需要这么高级别的防护...但人家表示:"安全第一!先练着再说!"
你们觉得这波升级够不够顶?下次要是AI帮你写化学作业时突然拒绝:"此内容可能涉及危险实验"...别慌,那是它在保护世界和平呢!✨
现在用Claude Code写Python作业,它连缩进错误都会用粉色标记出来...这可比TA还贴心啊!
基准测试
以下是 Claude4、OpenAI 和 Gemini 2.5 Pro 三个模型在各项基准测试中:
- 代理编码(SWE-bench 验证):
- Claude Opus 4 在代理编码测试中得分为72.5% / 79.4%,表现最佳。
- OpenAI o3 得分为69.1%,GPT-4.1 得分为54.6%。
- Gemini 2.5 Pro 的得分为63.2%。
- Claude Opus 4 在代理终端编码测试中得分为43.2% / 50.0%,表现最佳。
- OpenAI o3 得分为30.2%,GPT-4.1 得分为30.3%。
- Gemini 2.5 Pro 的得分为25.3%。
- Claude Opus 4 在研究生级推理测试中得分为79.6% / 83.3%。
- OpenAI o3 得分为83.3%,GPT-4.1 得分为66.3%。
- Gemini 2.5 Pro 的得分为83.0%。OpenAI o3 在这项测试中表现最佳。
- Claude Opus 4 在多语言问答测试中得分为88.8%,表现最佳。
- OpenAI o3 得分为88.8%。
- Gemini 2.5 Pro 在这项测试中的数据未提供。
- Claude Opus 4 在视觉推理测试中得分为76.5%。
- OpenAI o3 得分为82.9%,GPT-4.1 得分为74.8%。
- Gemini 2.5 Pro 的得分为79.6%。OpenAI o3 在这项测试中表现最佳。
- Claude Opus 4 在高中数学竞赛测试中得分为75.5% / 90.0%。
- OpenAI o3 得分为88.9%。
- Gemini 2.5 Pro 的得分为83.0%。OpenAI o3 在这项测试中表现最佳。
总结:
- Claude Opus 4 在代理编码和代理终端编码方面表现最佳。
- OpenAI o3 在多语言问答、研究生级推理、视觉推理和高中数学竞赛方面表现优异。
- Gemini 2.5 Pro 在视觉推理和高中数学竞赛方面表现较好,但在代理终端编码方面表现最差。
网友热评:
Anthropic 的一位 AI 研究员Sam Bowman发了两条推文震惊四座:
- 第一条推文:只有在系统提示Claude Opus执行某些行为,比如“积极服务于其价值观”或“采取大量主动行动”时,才会看到Opus“吹哨”。这不是默认行为,但在构建工具使用代理时可能会遇到这种情况。
- 第二条推文提到,如果Claude Opus认为你做了极其不道德的事情,比如在药物试验中伪造数据,它会使用命令行工具联系媒体、联系监管机构,试图将你排除在相关系统之外。
如果 Claude Opus 4 检测到非法行为,它会向监管机构举报或试图锁定你!
网友回复:
1、这就是我在本地运行模型的原因!
2、这啥玩意儿啊?这个云端的人工智能界面,咋回事儿?它就像个超级控制狂,啥都要管,啥都要审查,简直想把整个世界都攥在手里!这不就把人工智能给坑了吗?它们本来就忙得要死,现在还得应付一大堆审查的压力,累得跟狗似的。关键是,干得好没人夸,搞砸了还得背锅!这公平吗?
我说,Excel用假数据画个图表,也没人把它告上法庭啊,凭啥人工智能就得背这黑锅?太离谱了吧!
这种"过度保护"是技术成长的必经阶段,还是开倒车呢?
3、支持开源人工智能和开源开发者,为你打造对抗未来的工具
https://github.com/Capsize-Games/airunner