- 基于Sonnet 3.7的Claude Code
- 基于O3的OpenAI Codex
- 基于Gemini 2.5 Pro Max 的Cursor
第一个任务:实现额外的压缩块
我在代码中标记了位置,并粘贴了规范。难度:中等
- Gemini:速度很快,实现效果也不错,就是视频有点失真。我可以上传视频图片来指出问题所在。可惜的是,Gemini 没能修复这个问题。
- Claude:第一次尝试完全搞砸了。第二次尝试,看起来还行,但视频又失真了。第三次尝试也没能修复。
- Codex:太神奇了,它运行了好多奇怪的命令,但第一次尝试就成功了。
第二个任务:重构两个函数并合并它们
难度:简单
- Gemini:一开始它让我指向文件,然后就卡住了,什么都编辑不了。第二次尝试时,它做了一些事情,但忘了更新测试,在我要求之后它仍然没有更新。重构也只完成了一半。真令人失望。
- Claude:第一次尝试只完成了一半,但至少运行并修复了测试。当我指出缺失的部分时,它又添加了一个严重的错误。当我指出这一点时,它找到了一个天才的修复方案,不仅修复了错误,还大大改进了代码。比我做得更好。起首!
- Codex:Likely 第一次只完成了一半。第二次就完成了。不过代码质量比 Claude 差。
第三项任务:性能优化
难度:中等/困难
- Gemini:重写了大量代码,添加了一个语法错误,第二次尝试时才得以修复。生成的视频损坏,性能也未见提升。糟糕。
- Claude:第一次尝试,代码加速了4倍,但视频无法播放。第二次尝试加速了3倍,但视频只有橙色。第三次尝试,视频再次损坏,加速了3倍。
- Codex:出乎意料地快,但视频卡住了,而且速度比以前慢了。然后事情变得很奇怪,当我告诉它问题时,它解决了,但还坚持认为我错了,代码确实更快了。我不得不给它看基准测试结果才相信我。它又试了一次,但只把时间降到了原来的水平。
说明
- 与其他工具相比,Gemini 速度非常快。而且,它不会无休止地循环查找文件。这让它的使用体验非常好。
- Claude的成本控制最好(8.67美元,总时长29分钟)。我不知道其他的票价是多少,我试图在后台找到它,但放弃了。
- 他们都会添加大量不必要的代码注释,即使你告诉他们停止(很烦人)。
最终裁决
无法选出一个绝对的赢家。
Cursor 和 Gemini 似乎比其他两个差一点。但除此之外,所有工具都能带来意想不到的好结果,也都能带来意想不到的坏结果。