谁说LLM不会思考？DeepSeek边写代码边调试

苹果说LLM不能思考。这个团队自己只做了一个调试-它打破了每一个基准。这个团队将执行反馈连接到LLM的生成循环中。它运行，读取跟踪，调试.就像一个真实的开发。打破了OpenAI、谷歌、DeepMind的所有基准。

苹果论文：LLM大模型不像开发人员那样思考？错，大语言模型终于学会像程序员一样边写边跑了！

以前的大语言模型（比如ChatGPT）写代码就像闭卷考试——闷头瞎编，写完才检查对错。现在我们和@KatzShachar、@liorwolf搞了个"代码执行反馈外挂"（EG-CFG），让模型边写代码边自动运行测试，就像人类程序员一样实时调试！

什么是EG-CFG？
EG-CFG是一种用于代码生成的推理时间算法，它将实时执行反馈直接注入模型的解码循环。通过在生成过程中加入动态运行时信号，它可以引导模型生成不仅语法有效，而且功能正确且可执行的解决方案。

EG-CFG=给AI编程装了个"实时调试器"！

▎以前AI写代码的毛病：
就像新手闭眼敲键盘——代码长得挺像样，一运行全报错！

▎现在我们的黑科技（EG-CFG）：
1️⃣ 边写边跑：每写一行就自动按"F5"运行测试（像程序员狂按调试键）
2️⃣ 智能纠错：发现bug立刻红笔圈出来，AI秒懂怎么改
3️⃣ 多开挂机：同时派10个AI小弟各写各的，谁写得好就抄谁的作业

▎EG-CFG实际效果炸裂：
• 基础编程题正确率96% → 相当于学渣变学霸
• 竞赛级难题通过率58% → 其他AI还在交白卷
• 最骚的是：全程用的国产开源模型DeepSeek-V3，吊打ChatGPT方案

（原理类比：EG-CFG就像教小学生做数学题，每写一步就让TA自己验算，错了马上改，比闷头写完再检查强100倍）

【技术人看得懂的EG-CFG亮点】
✓ 保持代码语法结构的前提下动态纠错
✓ 行级反馈机制避免token级干扰
✓ 天然支持多路径并行探索
✓ 无需微调即插即用

EG-CFG这招有多猛？
直接干翻所有代码生成基准：
• Google的MBPP数据集：正确率96.6%（相当于学霸交卷基本不扣分）
• OpenAI的HumanEval实战题库：87.19%通过率（其他模型还在及格线挣扎）
• 最变态的DeepMind编程竞赛题：58%的正确率（别的模型直接交白卷）

重点来了：
没用ChatGPT/Gemini/Claude这些闭源模型
全靠国产开源模型DeepSeek-V3（@deepseek_ai）
成绩吊打所有用收费模型的方案

通俗版解释：
以前AI写代码像小学生默写课文，现在升级成程序员边敲键盘边按F5调试——写一行跑一行，不对就当场改！

网友热评：
（1）核心质疑：
1️⃣ "刷榜嫌疑"：
• 用的多是老基准（MBPP/HumanEval），部分已"卷到天花板"
• 对比对象含"水份"：拿2025年新模型 vs 2024年初旧框架（如LLaMA 3）
• 图表刻意隐去对比模型名，被扒出实际对比不公

2️⃣ "数据魔术"：
• MBPP-ET榜单唯一可比数据是GPT-4+LPW，但论文却称超越多个基线
• CodeContests对比用自定义测试集，涉嫌"田忌赛马"

3️⃣ "开源双标"：
• 虽开源代码，但部分对比基线因"闭源/适配问题"被迫调整实现
• 被指部分基线调试后性能可能虚高

（2）️ 作者方回应：
• 公平性：在相同DeepSeek-V3模型上复现所有能跑的基线
• 透明度：明确标注无法复现的案例（如某些框架仅适配GPT系列）
• 方法价值：强调EG-CFG是创新性"实时调试"机制，非普通脚手架
• 开源实锤：完整代码/脚本/提示已公开，支持任意带logprobs的LLM复现

吃瓜群众看点
论文常见套路：用"定制化测试+精选基线"凸显SOTA
业界痛点：基准污染严重，老测试集已难反映真实水平
作者刚正面：敢开源全量代码，至少比"炼丹黑箱"强

中立总结
这波属于"学术圈经典攻防战"——
• 创新性：EG-CFG的实时执行反馈确实有新意
• 宣传争议：SOTA表述存在选择性对比嫌疑
• 终极验证：等社区复现结果（毕竟代码全公开）

（建议技术粉直接跑repo代码，口水战不如实证香）

谁说LLM不会思考？DeepSeek边写代码边调试

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道