阿里Qwen3暴打Claude3.7!代码实测封神

Qwen 3系列模型在编码任务中展现出了令人印象深刻的性能,特别是在Aider基准测试中表现优于编程王者模型Claude 3.7。

这个叫Qwen3的AI大模型可不得了!最新比武大会上,它家那个2350亿参数的"巨无霸"版本,在写代码比赛里居然干翻了Claude3.7这个老牌高手!就像班里转来个学霸,随堂测验直接把年级第一给KO了!

性能表现:
Qwen 3-235B-A22B(非思考模式)在使用32k思考令牌时显示出优势。

用户自行验证的基准测试结果与官方PR结果一致:
在Aider上发现了这个基准PR
我自己又用Aider做了自己的基准测试,结果一致真是令人印象深刻


技术细节:

  • 使用bfloat16精度的vLLM进行加载
  • 测试对比了235B和32B两个版本的模型
  • 基准测试是在Aider(AI配对编程工具)上进行的
使用bfloat 16精度的VLLM加载Qwen 3 - 235 B-A22 BQwen 3 - 32 B模型,并在非思维模式下对其进行测试。

以下是初次测试使用的设置:

-name:openai/${MODEL_NAME}use_temperature:0.6extra_params:max_tokens:24000top_p:0.95top_k:20 temperature:0.6

参数设置存在差异:

  • 当前测试使用的是非推荐的非思考模式参数(Temperature=0.6, TopP=0.95)
  • 官方推荐的非思考模式参数应为:Temperature=0.7, TopP=0.8, TopK=20, MinP=0

改进后测试:
使用建议的参数重新评估了Qwen 3在Aider基准测试中的性能,发现Qwen 3 - 235 B-A22 B在这些设置下获得了更好的结果(61.8到65.3,全格式)。

- name: openai/${MODEL_NAME} use_temperature: 0.7 extra_params: max_tokens: 24000 top_p: 0.8 top_k: 20 min_p: 0.0 temperature: 0.7

结论
Aider是一个非常棒的AI Pair编程助手!对Aider排行榜也有很大的帮助--它非常有帮助,可以清楚地了解模型的表现。

这些发现表明Qwen 3系列,特别是235B版本,在代码生成和理解任务上具有很强的竞争力。按照官方推荐参数调整后,可能还会有性能提升空间。
对于开发者来说,这些基准结果可以帮助选择最适合编程辅助任务的模型。

下次要是用这个AI写作业...啊不是,写代码,记得把"思考模式"关掉,Temperature调0.7,TopP为0.8,保准它给你输出最溜的代码!这可比游戏里调外挂参数还带劲!

网友:
1、看到越来越便宜的AI趋势仍然强劲!

2、Nvidia 失败的唯一原因就是真正的竞争对手的出现。
显卡江湖大变天!老黄(Nvidia)垄断江湖的好日子到头了!为啥?因为:
真实挑战者出现了!像武林大会突然杀出个新门派:

  • 模型瘦身技术(轻功高手)
  • 开源社区(丐帮人多势众)
  • 算力性价比(内功心法突破)

3、为开放式模型提供更多动力。我敢肯定,开放式的模式一定会赢。它们会变得更好、更聪明、更便宜……

4、虽然跟谷歌家那个Gemini 2.5 Pro顶配版比还差点意思,但上手感觉比DeepSeek-R1带劲多了!就像:
实测体验报告:

  • 在roo环境跑起来丝滑得跟德芙似的(虽然没到巧克力广告那种纵享丝滑)
  • 日常用起来比DeepSeek-R1更懂人话(就像班里转来个新同学,作业帮得比课代表还溜)

5、我的主要用例是编程。

  • 我一直在用 Deepseek R1(还是 unsloth - Q2_K_L),它确实很棒,但限制在 32k 上下文,而且速度相当慢(当我推送该上下文时,速度大约是每秒 3 个 token)。
  • Qwen32-235 的速度大概是 4-5 倍,而且几乎一样好。但它经常会犯一些小错误(比如忘记导入、混淆数据类型等等),虽然很容易修复,但可能会很烦人。遇到更棘手的问题,我通常不得不重新加载 R1。

6、它绝对比 claude 3.7 的思维好,它与 gemini 2.0 flash 相当,但比 gemini 2.5 flash 的思维差

7、对我来说,Qwen reg 32b 也更适合编码,但都比不上 sonnet,尤其是当你的任务有任何 FE/UI 或有复杂的逻辑时

8、为什么用非思考方式呢?
思考模式可能过于闲聊。

9、这与我在本地使用 IQ4_XS 量化(一种 4 位量化变体,适合 128GB 内存)运行的经验一致。
我第一次感觉自己就像在本地运行了一个claude 级别的大模型 (LLM)。

顺便说一句,我也用过/nothink系统提示符。根据我的经验,启用思考功能的 Qwen 生成的代码实际上更糟糕。

10、235 模型在 Aider 上的得分相当高。它在 Pass 1 上的得分也比 Claude 高。
最大的区别在于:

  • 235 模型的解题时间约为 200 秒
  • 而 Claude 则需要 30-60 秒。