阿里QwQ-32B测试：优点显著，缺点需权衡

我用 Bartowski 的 Q5 和 Q6 测试了阿里千问模型QwQ。我没发现 Q6 有什么特别大的优势。

Bartowski 的 Q5 和 Q6 是指量化（quantization）方法或模型版本。量化是一种技术，通过降低模型参数的精度（比如从 32 位浮点数降到 8 位整数）来减少模型的大小和计算量，从而让模型在资源有限的设备上运行得更高效。

Q5 和 Q6 是量化的不同级别或配置，比如 5 位（5-bit）和 6 位（6-bit）量化。位数越低，模型越小、运行越快，但可能会损失一些精度；位数越高，模型性能可能更接近原始模型，但计算成本也会增加。

优点
QwQ真的很不错。如果你能接受它用更多的 token，这个模型比Deepseek Distill R1 32B 更强，这一点毫无疑问。但它需要更多的“思考”才能做到这一点。如果你对上下文大小或者推理速度很敏感，这可能是个需要权衡的问题。

很棒的地方
QwQ这个模型打败了 Qwen-Coder 32B，后者一直是 Aider 中这种规模模型的编码王者。它不一定能写出更好的代码，但它需要的尝试次数少得多。它第一次就能理解你的意图和指令，避免一些低级的语法错误。

最大的优点是，我用 QwQ 时需要的提示比用 Qwen Coder 少得多——但要注意的是，QwQ 的一次提示需要的 token 是 Qwen-Coder 32B 三次迭代提示的 2-3 倍。

缺点
就像前面说的，它思考得很聪明，但也思考得很多。我完全在 VRAM 中使用 512GB/s，结果我自己都变得不耐烦了。

糟糕的地方
有两次它随机地为我写出了完美的代码（一次性搞定），但后来却忘了遵循 Aider 的代码编辑规则。在等了那么多“思考” token 才出结果之后，这真的很让人失望。

结论（到目前为止）
那些说它打败 Deepseek R1（全功能）的基准测试绝对是假的。这个模型还没到那个水平。

但它基本上成功地在一个提示里做到了 Qwen32B 和 Qwen-Coder32B 三个迭代提示才能做到的事情，这真的很厉害。

我觉得很多人都会喜欢用这个模型。