谁说LLM不会思考?DeepSeek边写代码边调试


苹果说LLM不能思考。这个团队自己只做了一个调试-它打破了每一个基准。这个团队将执行反馈连接到LLM的生成循环中。它运行,读取跟踪,调试.就像一个真实的开发。打破了OpenAI、谷歌、DeepMind的所有基准。


苹果论文:LLM大模型不像开发人员那样思考?错,大语言模型终于学会像程序员一样边写边跑了!

以前的大语言模型(比如ChatGPT)写代码就像闭卷考试——闷头瞎编,写完才检查对错。现在我们和@KatzShachar、@liorwolf搞了个"代码执行反馈外挂"(EG-CFG),让模型边写代码边自动运行测试,就像人类程序员一样实时调试!

什么是EG-CFG?
EG-CFG是一种用于代码生成的推理时间算法,它将实时执行反馈直接注入模型的解码循环。通过在生成过程中加入动态运行时信号,它可以引导模型生成不仅语法有效,而且功能正确且可执行的解决方案。

EG-CFG=给AI编程装了个"实时调试器"!

▎以前AI写代码的毛病:
就像新手闭眼敲键盘——代码长得挺像样,一运行全报错!

▎现在我们的黑科技(EG-CFG):
1️⃣ 边写边跑:每写一行就自动按"F5"运行测试(像程序员狂按调试键)
2️⃣ 智能纠错:发现bug立刻红笔圈出来,AI秒懂怎么改
3️⃣ 多开挂机:同时派10个AI小弟各写各的,谁写得好就抄谁的作业

▎EG-CFG实际效果炸裂:
• 基础编程题正确率96% → 相当于学渣变学霸
• 竞赛级难题通过率58% → 其他AI还在交白卷
• 最骚的是:全程用的国产开源模型DeepSeek-V3,吊打ChatGPT方案

(原理类比:EG-CFG就像教小学生做数学题,每写一步就让TA自己验算,错了马上改,比闷头写完再检查强100倍)

【技术人看得懂的EG-CFG亮点】
✓ 保持代码语法结构的前提下动态纠错
✓ 行级反馈机制避免token级干扰
✓ 天然支持多路径并行探索
✓ 无需微调即插即用


EG-CFG这招有多猛?
直接干翻所有代码生成基准:
• Google的MBPP数据集:正确率96.6%(相当于学霸交卷基本不扣分)
• OpenAI的HumanEval实战题库:87.19%通过率(其他模型还在及格线挣扎)
• 最变态的DeepMind编程竞赛题:58%的正确率(别的模型直接交白卷)


重点来了:
没用ChatGPT/Gemini/Claude这些闭源模型
全靠国产开源模型DeepSeek-V3(@deepseek_ai)
成绩吊打所有用收费模型的方案

通俗版解释:
以前AI写代码像小学生默写课文,现在升级成程序员边敲键盘边按F5调试——写一行跑一行,不对就当场改!

网友热评:
(1) 核心质疑:

1️⃣ "刷榜嫌疑":
• 用的多是老基准(MBPP/HumanEval),部分已"卷到天花板"
• 对比对象含"水份":拿2025年新模型 vs 2024年初旧框架(如LLaMA 3)
• 图表刻意隐去对比模型名,被扒出实际对比不公

2️⃣ "数据魔术":
• MBPP-ET榜单唯一可比数据是GPT-4+LPW,但论文却称超越多个基线
• CodeContests对比用自定义测试集,涉嫌"田忌赛马"

3️⃣ "开源双标":
• 虽开源代码,但部分对比基线因"闭源/适配问题"被迫调整实现
• 被指部分基线调试后性能可能虚高

(2)️ 作者方回应:
• 公平性:在相同DeepSeek-V3模型上复现所有能跑的基线
• 透明度:明确标注无法复现的案例(如某些框架仅适配GPT系列)
• 方法价值:强调EG-CFG是创新性"实时调试"机制,非普通脚手架
• 开源实锤:完整代码/脚本/提示已公开,支持任意带logprobs的LLM复现

吃瓜群众看点
论文常见套路:用"定制化测试+精选基线"凸显SOTA
业界痛点:基准污染严重,老测试集已难反映真实水平
作者刚正面:敢开源全量代码,至少比"炼丹黑箱"强

中立总结
这波属于"学术圈经典攻防战"——
• 创新性:EG-CFG的实时执行反馈确实有新意
• 宣传争议:SOTA表述存在选择性对比嫌疑
• 终极验证:等社区复现结果(毕竟代码全公开)

(建议技术粉直接跑repo代码,口水战不如实证香)