阿里Qwen3暴打Claude3.7！代码实测封神

#vibe编程 #大语言模型LLM #DeepSeek时刻

2025-05-04 3K banq

Qwen 3系列模型在编码任务中展现出了令人印象深刻的性能，特别是在Aider基准测试中表现优于编程王者模型Claude 3.7。

这个叫Qwen3的AI大模型可不得了！最新比武大会上，它家那个2350亿参数的"巨无霸"版本，在写代码比赛里居然干翻了Claude3.7这个老牌高手！就像班里转来个学霸，随堂测验直接把年级第一给KO了！

性能表现：
Qwen 3-235B-A22B（非思考模式）在使用32k思考令牌时显示出优势。

用户自行验证的基准测试结果与官方PR结果一致：
在Aider上发现了这个基准PR
我自己又用Aider做了自己的基准测试，结果一致真是令人印象深刻

技术细节：

使用bfloat 16精度的VLLM加载Qwen 3 - 235 B-A22 B和Qwen 3 - 32 B模型，并在非思维模式下对其进行测试。

以下是初次测试使用的设置：

-name：openai/${MODEL_NAME}use_temperature：0.6extra_params：max_tokens：24000top_p：0.95top_k：20 temperature：0.6

参数设置存在差异：

改进后测试：
使用建议的参数重新评估了Qwen 3在Aider基准测试中的性能，发现Qwen 3 - 235 B-A22 B在这些设置下获得了更好的结果（61.8到65.3，全格式）。

- name: openai/${MODEL_NAME} use_temperature: 0.7 extra_params: max_tokens: 24000 top_p: 0.8 top_k: 20 min_p: 0.0 temperature: 0.7

结论
Aider是一个非常棒的AI Pair编程助手！对Aider排行榜也有很大的帮助--它非常有帮助，可以清楚地了解模型的表现。

这些发现表明Qwen 3系列，特别是235B版本，在代码生成和理解任务上具有很强的竞争力。按照官方推荐参数调整后，可能还会有性能提升空间。
对于开发者来说，这些基准结果可以帮助选择最适合编程辅助任务的模型。

下次要是用这个AI写作业...啊不是，写代码，记得把"思考模式"关掉，Temperature调0.7，TopP为0.8，保准它给你输出最溜的代码！这可比游戏里调外挂参数还带劲！

网友：
1、看到越来越便宜的AI趋势仍然强劲！

2、Nvidia 失败的唯一原因就是真正的竞争对手的出现。
显卡江湖大变天！老黄（Nvidia）垄断江湖的好日子到头了！为啥？因为：
真实挑战者出现了！像武林大会突然杀出个新门派：

3、为开放式模型提供更多动力。我敢肯定，开放式的模式一定会赢。它们会变得更好、更聪明、更便宜……

4、虽然跟谷歌家那个Gemini 2.5 Pro顶配版比还差点意思，但上手感觉比DeepSeek-R1带劲多了！就像：
实测体验报告：

5、我的主要用例是编程。

我一直在用 Deepseek R1（还是 unsloth - Q2_K_L），它确实很棒，但限制在 32k 上下文，而且速度相当慢（当我推送该上下文时，速度大约是每秒 3 个 token）。
Qwen32-235 的速度大概是 4-5 倍，而且几乎一样好。但它经常会犯一些小错误（比如忘记导入、混淆数据类型等等），虽然很容易修复，但可能会很烦人。遇到更棘手的问题，我通常不得不重新加载 R1。

6、它绝对比 claude 3.7 的思维好，它与 gemini 2.0 flash 相当，但比 gemini 2.5 flash 的思维差

7、对我来说，Qwen reg 32b 也更适合编码，但都比不上 sonnet，尤其是当你的任务有任何 FE/UI 或有复杂的逻辑时

8、为什么用非思考方式呢？
思考模式可能过于闲聊。

9、这与我在本地使用 IQ4_XS 量化（一种 4 位量化变体，适合 128GB 内存）运行的经验一致。
我第一次感觉自己就像在本地运行了一个claude 级别的大模型 (LLM)。

顺便说一句，我也用过/nothink系统提示符。根据我的经验，启用思考功能的 Qwen 生成的代码实际上更糟糕。

10、235 模型在 Aider 上的得分相当高。它在 Pass 1 上的得分也比 Claude 高。
最大的区别在于：