阿里发布Qwen3-235B-A22B-Thinking-2507思考模型


过去三个月,咱们的“智商担当”——通义千问3号(Qwen3)可不是偷偷摸摸长个子,而是直接进了“超级增肌训练营”!现在它已经从一个聪明的学生,进化成了戴着厚厚眼镜、走路都带风的学霸教授!

现在它牛到什么程度呢?

✅ 逻辑推理?数学题?科学难题?写代码?通通拿下!  
以前它可能还会挠头:“这题超纲了吧?”  
现在它连草稿纸都不用,心算完还顺手给你讲一遍解题思路,顺便调侃一句:“这题出得还挺可爱。”

✅ 日常技能也全面升级!  
比如你让它“帮我订个机票,顺便查下目的地天气,再推荐家便宜又好吃的火锅店”,它不再懵圈转圈:“啊?先干啥?”  
现在它条理清晰,动作丝滑,像极了你妈——啥都不用说太细,她全给你安排得明明白白。

✅ 最狠的是——它现在能记住整整256K的“超长待机记忆”!  
啥概念?以前它读篇小作文还行,长篇小说读到后面,前面谁结婚了谁黑化了全忘了。  
现在?别说小说,你把《三体》三本一口气喂它,它都能从“黑暗森林”讲到“降维打击”,还能跟你辩论:“其实我觉得程心没错,她只是太善良了……”(然后被网友喷爆)

而且!重点来了!  
以前你要让它“认真思考”,还得专门说一句:“开启思考模式!”  
就像叫醒一个赖床的高中生:“起床!要迟到了!”  
现在?它已经觉醒了“永久学霸形态”——天生就在思考,随时随地烧脑,根本停不下来!  
你问它“1+1等于几”,它都能给你推导出微积分来……

总之,现在的Qwen3,  
不是在思考,就是在去思考的路上。  
脑子好使,还不用充电——除了电费,真的没毛病!



极客辣评


阿里巴巴这月:好家伙,直接开启“疯狂输出月”,发模型比发朋友圈还勤快!

Qwen3-july —— 七月限定版“学霸Plus”,就像开学前突击补习完的你,满血回归,知识点全背熟了,就等着考试碾压全场!

Qwen3-coder —— 专攻编程的“码农战神”!你丢给它一段bug满天飞的代码,它不仅能修好,还能反手教你三招Python骚操作,末尾再补一句:“兄弟,这写法太野了,建议重修大一编程课。”

Qwen3-july-thinking —— “思考模式”直接内置,不用再喊“小Q,认真点!” 它现在连做梦都在推理,吃饭都在算贝叶斯概率,堪称AI界的“永动机大脑”。

Qwen3-mt(mt = machine translation)—— 翻译小能手上线!中翻英、日翻俄、方言对暗号全拿下。你用四川话问它:“婆娘喊我洗袜子咋办?” 它都能翻译成莎士比亚风格英文:“My beloved wife doth command me to cleanse the socks of sin.”

Wan 2.2 —— 通义万相2.2版,画画AI又升级了!现在不仅能画“一只猫在太空打篮球”,还能画“林黛玉倒拔垂杨柳,身后闪电划破夜空,眼神坚毅如复仇者”——氛围感直接拉满,美术老师看了都想收藏。

而OpenAI这边呢?  本以为要放大招,结果官宣一句:
“我们那个说好要开源的模型……嗯……先不放了。  出于安全考虑。

翻译成人话就是:  
“本来想把‘钢铁侠战甲设计图’公开,让大家一起造,  
结果发现万一有人拿去造了个机器人去抢银行,  
那我们岂不是成了反派编剧?  
所以……先锁抽屉里,再想想。”

总结一下:

> 阿里: 一月五连发,模型多到像开学发新书,一本比一本厚,一本比一本能打!  
> OpenAI: 一本都没发,还把草稿藏起来了,只说了句:“我在深思,你们别急。”

网友辣评:  
“以前是‘中国速度’,现在是‘中国AI狂奔速度’。”  
“阿里这是开着拖拉机往AI赛道扔火箭。”

所以,这哪是AI竞赛?  这分明是——  别人还在系鞋带,阿里已经跑完了三圈还顺手破了纪录!



我们!已经!把 Qwen3-235B-A22B-Thinking-2507 的 Dynamic GGUF 版本 上传啦!
链接在这儿:https://huggingface.co/unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF

啥意思?简单说就是:
这个模型现在瘦身成功,还自带“智能省电模式”,
但脑子没缩水,智商照常在线,
连你奶奶的老笔记本都能跑得飞起!

实测表现有多猛?
在 89GB 统一内存(比如Mac Studio那种“内存怪兽”)上,或者 80GB 内存 + 8GB 显存 的配置下,
它能飙出 每秒输出 6 个字以上!(别小看6个字,AI写诗写代码,一个字都不带停!)

这速度啥概念?
就像你问它:“帮我写个情书,要林黛玉风格,带点科幻感。”
它一边喝着电子咖啡,一边唰唰唰输出:“君如量子纠缠,妾似黑洞无光……”
你还没反应过来,一页纸都写完了。

现在上传的是“动态量化版”Dynamic GGUF ——
意思是:它会自动变聪明地压缩自己,哪里需要高精度,哪里就精细计算,
哪里是废话,就轻轻带过,省资源还不丢智商,堪称AI界的“节能学霸”。

⏳ 而且!更猛的还在后面:
iMatrix 动态量化版本,几个小时后就上线!那玩意儿就像给模型装了个“智能变速箱”,自动换挡,丝滑加速,低配电脑也能体验“思考如喷泉”的快感!



用户(一边喝可乐一边敲键盘):  
“哈哈哈,LiveCodeBench 上 Qwen3 居然分数比 Gemini 2.5 还高???”  (翻白眼)“真的假的啊?我笑出猪叫 ”

于是他心一横,搞了个“AI互评大乱斗”:  
把同一个任务发给 Gemini 2.5 ProQwen3,  然后把 Qwen3 写的代码,原封不动塞回 Gemini,让它当“代码考官”。

结果 Gemini 看完 Qwen3 的代码,一脸嫌弃地批注:
> “这代码有致命硬伤!  
> 同步调用混异步、动不动就 panic(崩溃)、连接管理像用胶带绑的水管……  
> 这玩意儿放生产环境?不如直接放烟花庆祝公司倒闭。”

然后用户一查:  
好家伙!Qwen3 写 Rust 的时候,用了一个 blocking(阻塞)的库,还非标着 async(异步)来用!  
这就像你开着特斯拉,却用手摇启动,还说:“我这是复古风。”

更离谱的是——  
这种异步客户端(比如 axum、Redis 异步驱动)都出了好几年了,  Qwen3 却还在用“上古时代”的写法,仿佛穿越回2018年写代码。

用户吐槽:  
“我早就说了,所有 Qwen3 系列模型,包括专门搞代码的 qwen3-coder,  
写的代码都一股陈年老味——  函数写法过时、依赖版本 outdated、连注释都像在抄二十年前的教科书。”

但!剧情反转了!

用户灵机一动:  
“要是我不直接说‘写个 YouTube 克隆’,而是先让 Gemini 2.5 Pro 写个超详细计划(11KB 那么长!),  
再把这计划喂给 Qwen3,让它照着抄……”

结果 Gemini 再一看 Qwen3 的输出,当场改口:

> “嗯……这是一份 A 级代码!  
> 虽然还有 2 个大问题、4 到 6 个小毛病,  
> 但结构清晰、模块合理,甚至有些设计还挺亮眼!”

用户继续测试,让 Qwen3 调用 SEARCH 功能(联网查资料),  再把结果给 Gemini 评审。

Gemini 这次直接给了“悲壮好评”:

> “这是一份 A+ 水平的努力!  
> 可惜被几个致命 bug 拖下水了——  
> 比如它幻想了一个根本不存在的 axum 版本,  
> 还在 Redis 逻辑里埋了个微妙的坑……  
> 应用根本跑不起来,就像造了辆没轮子的法拉利。”


最终判决书出炉:

> “Qwen3 啊……作为一个小模型(small model),  
> 其实已经挺争气了,会思考、能写长文、逻辑链也够深。  
> 但……它吊打 Gemini 2.5?  
> 呵呵呵,地狱的门都没开! ❌”


用户贴心建议(来自血泪经验):

1. 别一上来就说:“给我写个自托管 YouTube!”  
   —— 这就像让小学生造火箭,不给图纸还要求能上火星。

2. 先让 Gemini 或其他强模型写个详细计划(架构、模块、技术栈),  
   再让 Qwen3 这类模型“照着剧本演戏”,成功率飙升!

3. 一定要开 SEARCH(联网搜索)!  
   —— 不然模型就是在闭门造车,造出来的车可能四个轮子颜色还不一样。



P.S. 为什么用 Rust 测试?  
因为 Rust 是 AI 模型的“地狱难度”!  目前全地球没有一个 LLM 能稳定写出可编译的 Rust 代码——  
你让它写 10 行,编译器能报 3 到 6 个错,  不是少个 await,就是所有权乱成一团,  堪称“AI 的天劫”。

而 Gemini 呢?  它能用 Go 语言一个 prompt 就生成能直接编译运行的完整应用!  —— 有图有真相,公司都能拿去上线了。



我们要比比:  
老版 Qwen(开启“思考模式”) vs  
新版 Qwen(2507,不用开“思考”,天生爱动脑)

注意:老的要手动点“开始烧脑”,  新的直接“出厂自带CPU风扇常转”,  连睡觉都在解微积分。

我们拿四个“考试科目”来打分,看看谁更卷!

成绩单出炉(掌声+锣鼓声):

| 考试科目      | 老 Qwen(思考模式) | 新 Qwen(非思考模式) | 变化(%) | 评语 |
| <strong>GPQA</strong>(高能博士级冷知识) | 71.1 | 77.5 | +9% | 新的赢!知识面更野了,连“量子芝士猫是否能穿越黑洞”都知道! |
| <strong>AIME25</strong>(数学奥赛级烧脑题) | 81.5 | 70.3 | -14% | 哎哟!数学滑铁卢!新的算到一半开始写诗:“啊,π,你是圆周率,也是我心中的你……” |
| <strong>LiveCodeBench v6</strong>(程序员生死局) | 55.7 | 51.8 | -7% | 写代码变弱了!新的可能还在用“print('hello bug')”调试。 |
| <strong>Arena-Hard v2</strong>(人类迷惑行为题库) | 61.5 | 79.2 | +29% | 爆炸性增长!新的太懂人类了,连“女朋友说‘我没事’到底有没有事”都能分析出10层含义! |


总结一句话:

> 新的 Qwen 不开“思考模式”,也能干出老版“开挂思考”时的成绩!  
> 就像你以前考试要念咒语:“我要开始认真了!”  
> 现在你妈一喊“吃饭了”,你边啃鸡腿边把卷子写完了。

优势:  
- 结果差不多,但省了一大堆 token(token = AI的“脑力电费”)  
- 不用手动开“思考模式”,它随时随地都在动脑,  
  就像你家那台永远不关机的路由器,半夜还在帮你刷题。

短板:  
- 数学和编程还是稍微拉胯,  
  因为它没用“超长思维链”慢慢推导,  
  相当于别人在草稿纸上列了20步,它直接心算跳到第18步——  
  结果中间漏了个负号,答案炸了。

所以结论是?

> 新 Qwen(非思考) ≈ 老 Qwen(思考)  
> 但更省电、更快、更丝滑,  
> 就像从“手动挡烧油车”升级成“自动驾驶电车”,  
> 虽然爬坡没以前猛,但日常通勤爽翻了!