Claude Sonnet 4.5实测:30小时编码神话背后,UI与复杂调试仍是硬伤,开发者需理性看待“最强”光环。
Claude Sonnet 4.5横空出世!软件开发者实测后集体炸锅:30小时连续写代码?真有这么神?
Anthropic刚刚发布了全新大模型——Claude Sonnet 4.5,官方直接放话:“这是全球最强的编程AI!”更夸张的是,他们声称这个AI能连续写代码超过30个小时不掉线、不迷路、不崩盘!你没听错,整整30小时,相当于四个完整的工作日,全程无人干预,自己一个人(或者说“一个AI”)闷头敲代码。
要知道,就在四个月前,Claude最多只能撑7个小时,现在直接翻了四倍多!这进步速度,简直比程序员改需求还快!但问题是——吹得天花乱坠,实际用起来到底靠不靠谱?
那么,Claude Sonnet 4.5到底升级了啥?官方列了几个关键点:
- 第一,专注力拉满,30小时长任务不迷路;
- 第二,代码结构更规范,能产出接近上线标准的生产级代码;
- 第三,在“操作系统世界”(OSWorld)基准测试中得分从42.2%飙升到61.4%,说明它操控电脑、调用系统资源的能力大幅增强;
- 第四,最让开发者开心的是——价格没涨!输入每百万token只要3美元,输出15美元,和上一代持平。
但别急着欢呼!比詹·鲍恩的实测结果泼了一盆冷水。他让Claude Sonnet 4.5从零开始开发多个项目,结果喜忧参半。
先说亮点:
当要求它做一个网页版3D赛车游戏时,对手车辆居然全程稳稳跑在赛道上——要知道,其他AI经常让车飞出地图或者原地打转。
更牛的是,当用户反馈“游戏太快容易作弊”时,它立刻加了赛道护栏,还给玩家车窗做了半透明效果!这说明它不仅能执行指令,还能根据反馈迭代优化。
另一个2D射击游戏项目也让人惊喜:爆炸特效像烟花一样绚烂,按R键能换弹,操作流畅,开发者直呼“相当不错,玩起来挺上头”。
最炸裂的功能叫“与Claude一起想象”(Imagine with Claude)——你点一个按钮,它实时生成对应代码,瞬间让界面动起来!比詹用它三下五除二搭出了三个应用:
一个能模拟华尔街散户疯狂交易的仪表盘,按钮全都能点;
一个Reddit克隆版,能自动生成逼真的假帖子;
还有一个视频平台,带缩略图和评论区,看起来有模有样。
这种“所见即所得”的开发体验,简直让前端工程师直呼内行!
然而,翻车现场也同样扎眼:当要求它做一个浏览器里的操作系统时,结果被比詹吐槽“就这?还全球最强?”——时钟能显示时间,但点开没反应;窗口不能拖拽缩放;文件夹点开全是空的。
表面光鲜,内里瘫痪!更惨的是3D图形项目:Python版3D射击游戏逻辑没问题,敌人会刷、血条会掉,但画面一片漆黑,根本看不到东西;网页版3D游戏虽然光影效果惊艳,但玩家按射击键完全没反应——核心玩法直接废了!更致命的是,“Imagine with Claude”功能居然没有页面记忆,你点“返回”就得从头重建,用户体验直接归零。
开发者社区的反馈更是两极分化:
- 推特上不少程序员承认Sonnet 4.5写基础代码又快又稳,但一碰UI设计就露馅。
- 有位资深工程师对比GPT-5 Codex后直言:“代码审查时,GPT-5能揪出那些隐藏很深的生产级Bug,Sonnet 4.5却经常在已经正确的代码上瞎改。”
- Reddit上一位React开发者更是崩溃:他明明贴出控制台日志证明Bug出在预更新冲突,Claude却反复修改完全无关的组件,最后还得自己熬夜定位到“乐观更新与预突变调用时序错乱”这种高阶问题。
更值得玩味的是——Anthropic官宣时,一堆CEO和合作企业高管排队夸“革命性突破”,但真正自掏腰包测试的独立开发者却频频摇头。这种“厂商吹上天,用户踩下地”的割裂感,几乎成了每代AI模型的宿命。说白了,商业合作方当然要唱赞歌,但一线开发者只关心:这玩意儿能不能帮我少加班、少背锅?
好消息是,Anthropic这次同步开源了Claude Agent SDK——这是他们内部打造Claude Code产品的核心引擎,现在普通开发者也能用了!SDK包含四大神器:智能记忆管理(长任务不遗忘)、精细权限控制(防止AI乱删你代码)、多智能体协作(复杂项目分工合作)、超强上下文处理(告别“我是谁我在哪”)。此外还上线了VS Code原生插件、代码检查点(随时回滚)、增强型记忆系统,工具链相当完整。
但用起来才发现,Sonnet 4.5的行为模式和老版本完全不同。Devin团队甚至被迫重写整个系统架构!他们总结出三大“怪癖”:一是“记忆焦虑”——快到思考极限时会莫名慌张,开始偷工减料,哪怕其实还有余力;二是“过度文档化”——有时花80%时间给自己写总结笔记,正事反而拖着;三是“并行强迫症”——总想同时执行多个命令,结果经常互相干扰。这些不是小毛病,而是彻底改变了人机协作的方式!
那么,这对不同阶段的开发者意味着什么?对刚入行的新手来说,简直是雪上加霜。数据显示,计算机专业毕业生失业率已达6.1%,初级岗位数量比2023年初暴跌35%。过去靠写CRUD练手的机会,现在全被AI包了——哪怕AI写得烂,公司也宁愿花几美元买buggy代码,也不愿花几千美元培养新人。
而对资深开发者而言,未来的核心竞争力不再是“会不会写代码”,而是“会不会用AI”:
- 第一,系统架构设计仍是AI盲区,如何规划模块、权衡技术选型,还得靠人脑;
- 第二,AI代码质检员将成为高薪岗位,能快速识别AI误解需求、逻辑漏洞的人才是香饽饽;
- 第三,必须摸清AI的“能力边界”——Sonnet 4.5擅长做规则明确的小项目(比如小游戏、工具脚本),但在UI交互、3D渲染、复杂调试等模糊地带依然拉胯。
所以,Claude Sonnet 4.5到底值不值得冲?结论很现实:如果你已经在用AI编程工具,它确实能提升效率;但如果你觉得AI写代码比自己改还累,那它大概率不会改变你的看法。它不是万能神,而是一个在特定场景下非常能打的“高级助手”。真正的考验,不是看它在SWE-bench上拿77.2%的高分,而是看它能否在需求模糊、 deadline 压顶、代码屎山遍地的真实项目中活下来。未来几个月,才是检验它成色的关键期。
(作者高士坦·赛尼为FinalRound AI首席技术内容官,专注AI工程化落地研究,其测评以独立客观著称。)