Claude Code vs Codex vs Cursor比较

由于 OpenAI 最近发布了 Codex，我认为挑战三大代理编码工具是一个好主意：

为了测试，我使用了目前正在实现的视频编解码器，代码量约为 2000 行 C++23。我尝试了所有工具三次，才成功。

第一个任务：实现额外的压缩块
我在代码中标记了位置，并粘贴了规范。难度：中等

第二个任务：重构两个函数并合并它们
难度：简单

Gemini：一开始它让我指向文件，然后就卡住了，什么都编辑不了。第二次尝试时，它做了一些事情，但忘了更新测试，在我要求之后它仍然没有更新。重构也只完成了一半。真令人失望。
Claude：第一次尝试只完成了一半，但至少运行并修复了测试。当我指出缺失的部分时，它又添加了一个严重的错误。当我指出这一点时，它找到了一个天才的修复方案，不仅修复了错误，还大大改进了代码。比我做得更好。起首！
Codex：Likely 第一次只完成了一半。第二次就完成了。不过代码质量比 Claude 差。

第三项任务：性能优化
难度：中等/困难

Gemini：重写了大量代码，添加了一个语法错误，第二次尝试时才得以修复。生成的视频损坏，性能也未见提升。糟糕。
Claude：第一次尝试，代码加速了4倍，但视频无法播放。第二次尝试加速了3倍，但视频只有橙色。第三次尝试，视频再次损坏，加速了3倍。
Codex：出乎意料地快，但视频卡住了，而且速度比以前慢了。然后事情变得很奇怪，当我告诉它问题时，它解决了，但还坚持认为我错了，代码确实更快了。我不得不给它看基准测试结果才相信我。它又试了一次，但只把时间降到了原来的水平。

说明

最终裁决
无法选出一个绝对的赢家。

Cursor 和 Gemini 似乎比其他两个差一点。但除此之外，所有工具都能带来意想不到的好结果，也都能带来意想不到的坏结果。