o3是“vibe编码”的不败之王

在过去的几个月里,我已经将现有项目中的大部分代码编写工作委托给了AI,目前使用Cursor作为IDE。

在某些情况下,所有项目都是已经投入生产的SaaS平台,具有庞大而复杂的代码库。

我从Sonnet 3.5开始,然后是3.7,Gemini 2.5 Pro,最近尝试了Sonnet和Opus 4(后者的速率非常有限),都是在他们的MAX版本中。在尝试了所有所谓的SOTA模型后,我总是回到OpenAI o3。

我通常将所有任务划分为计划和执行,首先要求模型计划和设计功能的实现,然后要求它继续实际实现。

o3是唯一一个几乎100%的时间都能准确无误地理解我想要实现的目标,以及如何在当前项目的背景下实现它的模型,通常会提出一些我从未想过的方法。

我确实有自定义规则,要求模型遵循某些原则,并在遵循任何命令之前对项目进行深入研究,这可能会有所帮助。

我想看看大家在这方面的经验。你同意吗?

  • PS:唯一觉得o3不擅长的,就是UI。我觉得Gemini 2.5 Pro通常在设计美学UI方面做得更好。
  • PS2:一开始我习惯让o3做“规划”,然后切换到Sonnet进行实际执行。但后来我完全停止了切换,让o3也做了实现。它只是工作。
  • PS3:我会发布我的Cursor规则,因为它们可能对我获得的行为很重要:https://pastebin.com/6pyJBTH7

网友热评:
对我和我的项目来说,没有什么能打败Gemini 。我偶尔会用Sonnet 或GPT 4.1,以帮助补充Gemini不足,但85%的时间Gemini工程最适合我。

我开始认为,可能是个人如何提示,他们的规则是什么,项目是什么,语言等决定了哪个模型对他们来说表现更好,而不是一个模型对每个人来说都是最好的。就像同事一样,我想我们和不同的人一起工作会更好。

Claude 4 ?它还不错,非常好。但有几次它未经我的要求就重新设计了组件的样式,或者做出了与我的提示或项目指南 md 文件(在上下文中)不一致的判断。不过 Gemini 不会对我搞这种鬼。

o3 很慢而且很贵。