阿里发布Qwen3-235B-A22B-Thinking-2507思考模型

过去三个月，咱们的“智商担当”——通义千问3号（Qwen3）可不是偷偷摸摸长个子，而是直接进了“超级增肌训练营”！现在它已经从一个聪明的学生，进化成了戴着厚厚眼镜、走路都带风的学霸教授！

现在它牛到什么程度呢？

✅ 逻辑推理？数学题？科学难题？写代码？通通拿下！
以前它可能还会挠头：“这题超纲了吧？”
现在它连草稿纸都不用，心算完还顺手给你讲一遍解题思路，顺便调侃一句：“这题出得还挺可爱。”

✅ 日常技能也全面升级！
比如你让它“帮我订个机票，顺便查下目的地天气，再推荐家便宜又好吃的火锅店”，它不再懵圈转圈：“啊？先干啥？”
现在它条理清晰，动作丝滑，像极了你妈——啥都不用说太细，她全给你安排得明明白白。

✅ 最狠的是——它现在能记住整整256K的“超长待机记忆”！
啥概念？以前它读篇小作文还行，长篇小说读到后面，前面谁结婚了谁黑化了全忘了。
现在？别说小说，你把《三体》三本一口气喂它，它都能从“黑暗森林”讲到“降维打击”，还能跟你辩论：“其实我觉得程心没错，她只是太善良了……”（然后被网友喷爆）

而且！重点来了！
以前你要让它“认真思考”，还得专门说一句：“开启思考模式！”
就像叫醒一个赖床的高中生：“起床！要迟到了！”
现在？它已经觉醒了“永久学霸形态”——天生就在思考，随时随地烧脑，根本停不下来！
你问它“1+1等于几”，它都能给你推导出微积分来……

总之，现在的Qwen3，
不是在思考，就是在去思考的路上。
脑子好使，还不用充电——除了电费，真的没毛病！

极客辣评

阿里巴巴这月：好家伙，直接开启“疯狂输出月”，发模型比发朋友圈还勤快！

Qwen3-july —— 七月限定版“学霸Plus”，就像开学前突击补习完的你，满血回归，知识点全背熟了，就等着考试碾压全场！

Qwen3-coder —— 专攻编程的“码农战神”！你丢给它一段bug满天飞的代码，它不仅能修好，还能反手教你三招Python骚操作，末尾再补一句：“兄弟，这写法太野了，建议重修大一编程课。”

Qwen3-july-thinking —— “思考模式”直接内置，不用再喊“小Q，认真点！” 它现在连做梦都在推理，吃饭都在算贝叶斯概率，堪称AI界的“永动机大脑”。

Qwen3-mt（mt = machine translation）—— 翻译小能手上线！中翻英、日翻俄、方言对暗号全拿下。你用四川话问它：“婆娘喊我洗袜子咋办？” 它都能翻译成莎士比亚风格英文：“My beloved wife doth command me to cleanse the socks of sin.”

Wan 2.2 —— 通义万相2.2版，画画AI又升级了！现在不仅能画“一只猫在太空打篮球”，还能画“林黛玉倒拔垂杨柳，身后闪电划破夜空，眼神坚毅如复仇者”——氛围感直接拉满，美术老师看了都想收藏。

而OpenAI这边呢？ 本以为要放大招，结果官宣一句：
“我们那个说好要开源的模型……嗯……先不放了。 出于安全考虑。”

翻译成人话就是：
“本来想把‘钢铁侠战甲设计图’公开，让大家一起造，
结果发现万一有人拿去造了个机器人去抢银行，
那我们岂不是成了反派编剧？
所以……先锁抽屉里，再想想。”

总结一下：

> 阿里： 一月五连发，模型多到像开学发新书，一本比一本厚，一本比一本能打！
> OpenAI： 一本都没发，还把草稿藏起来了，只说了句：“我在深思，你们别急。”

网友辣评：
“以前是‘中国速度’，现在是‘中国AI狂奔速度’。”
“阿里这是开着拖拉机往AI赛道扔火箭。”

所以，这哪是AI竞赛？这分明是—— 别人还在系鞋带，阿里已经跑完了三圈还顺手破了纪录！

我们！已经！把 Qwen3-235B-A22B-Thinking-2507 的 Dynamic GGUF 版本上传啦！
链接在这儿：https://huggingface.co/unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF

啥意思？简单说就是：
这个模型现在瘦身成功，还自带“智能省电模式”，
但脑子没缩水，智商照常在线，
连你奶奶的老笔记本都能跑得飞起！

实测表现有多猛？
在 89GB 统一内存（比如Mac Studio那种“内存怪兽”）上，或者 80GB 内存 + 8GB 显存的配置下，
它能飙出每秒输出 6 个字以上！（别小看6个字，AI写诗写代码，一个字都不带停！）

这速度啥概念？
就像你问它：“帮我写个情书，要林黛玉风格，带点科幻感。”
它一边喝着电子咖啡，一边唰唰唰输出：“君如量子纠缠，妾似黑洞无光……”
你还没反应过来，一页纸都写完了。

现在上传的是“动态量化版”Dynamic GGUF ——
意思是：它会自动变聪明地压缩自己，哪里需要高精度，哪里就精细计算，
哪里是废话，就轻轻带过，省资源还不丢智商，堪称AI界的“节能学霸”。

⏳ 而且！更猛的还在后面：
iMatrix 动态量化版本，几个小时后就上线！那玩意儿就像给模型装了个“智能变速箱”，自动换挡，丝滑加速，低配电脑也能体验“思考如喷泉”的快感！

用户（一边喝可乐一边敲键盘）：
“哈哈哈，LiveCodeBench 上 Qwen3 居然分数比 Gemini 2.5 还高？？？” （翻白眼）“真的假的啊？我笑出猪叫 ”

于是他心一横，搞了个“AI互评大乱斗”：
把同一个任务发给 Gemini 2.5 Pro 和 Qwen3，然后把 Qwen3 写的代码，原封不动塞回 Gemini，让它当“代码考官”。

结果 Gemini 看完 Qwen3 的代码，一脸嫌弃地批注：
> “这代码有致命硬伤！
> 同步调用混异步、动不动就 panic（崩溃）、连接管理像用胶带绑的水管……
> 这玩意儿放生产环境？不如直接放烟花庆祝公司倒闭。”

然后用户一查：
好家伙！Qwen3 写 Rust 的时候，用了一个 blocking（阻塞）的库，还非标着 async（异步）来用！
这就像你开着特斯拉，却用手摇启动，还说：“我这是复古风。”

更离谱的是——
这种异步客户端（比如 axum、Redis 异步驱动）都出了好几年了， Qwen3 却还在用“上古时代”的写法，仿佛穿越回2018年写代码。

用户吐槽：
“我早就说了，所有 Qwen3 系列模型，包括专门搞代码的 qwen3-coder，
写的代码都一股陈年老味—— 函数写法过时、依赖版本 outdated、连注释都像在抄二十年前的教科书。”

但！剧情反转了！

用户灵机一动：
“要是我不直接说‘写个 YouTube 克隆’，而是先让 Gemini 2.5 Pro 写个超详细计划（11KB 那么长！），
再把这计划喂给 Qwen3，让它照着抄……”

结果 Gemini 再一看 Qwen3 的输出，当场改口：

> “嗯……这是一份 A 级代码！
> 虽然还有 2 个大问题、4 到 6 个小毛病，
> 但结构清晰、模块合理，甚至有些设计还挺亮眼！”

用户继续测试，让 Qwen3 调用 SEARCH 功能（联网查资料），再把结果给 Gemini 评审。

Gemini 这次直接给了“悲壮好评”：

> “这是一份 A+ 水平的努力！
> 可惜被几个致命 bug 拖下水了——
> 比如它幻想了一个根本不存在的 axum 版本，
> 还在 Redis 逻辑里埋了个微妙的坑……
> 应用根本跑不起来，就像造了辆没轮子的法拉利。”

最终判决书出炉：

> “Qwen3 啊……作为一个小模型（small model），
> 其实已经挺争气了，会思考、能写长文、逻辑链也够深。
> 但……它吊打 Gemini 2.5？
> 呵呵呵，地狱的门都没开！ ❌”

用户贴心建议（来自血泪经验）：

1. 别一上来就说：“给我写个自托管 YouTube！”
—— 这就像让小学生造火箭，不给图纸还要求能上火星。

2. 先让 Gemini 或其他强模型写个详细计划（架构、模块、技术栈），
再让 Qwen3 这类模型“照着剧本演戏”，成功率飙升！

3. 一定要开 SEARCH（联网搜索）！
—— 不然模型就是在闭门造车，造出来的车可能四个轮子颜色还不一样。

P.S. 为什么用 Rust 测试？
因为 Rust 是 AI 模型的“地狱难度”！目前全地球没有一个 LLM 能稳定写出可编译的 Rust 代码——
你让它写 10 行，编译器能报 3 到 6 个错，不是少个 await，就是所有权乱成一团，堪称“AI 的天劫”。

而 Gemini 呢？它能用 Go 语言，一个 prompt 就生成能直接编译运行的完整应用！ —— 有图有真相，公司都能拿去上线了。

我们要比比：
老版 Qwen（开启“思考模式”） vs
新版 Qwen（2507，不用开“思考”，天生爱动脑）

注意：老的要手动点“开始烧脑”，新的直接“出厂自带CPU风扇常转”，连睡觉都在解微积分。

我们拿四个“考试科目”来打分，看看谁更卷！

成绩单出炉（掌声+锣鼓声）：

| 考试科目      | 老 Qwen（思考模式） | 新 Qwen（非思考模式） | 变化（%） | 评语 |
| <strong>GPQA</strong>（高能博士级冷知识） | 71.1 | 77.5 |  +9% | 新的赢！知识面更野了，连“量子芝士猫是否能穿越黑洞”都知道！ |
| <strong>AIME25</strong>（数学奥赛级烧脑题） | 81.5 | 70.3 |  -14% | 哎哟！数学滑铁卢！新的算到一半开始写诗：“啊，π，你是圆周率，也是我心中的你……” |
| <strong>LiveCodeBench v6</strong>（程序员生死局） | 55.7 | 51.8 |  -7% | 写代码变弱了！新的可能还在用“print('hello bug')”调试。 |
| <strong>Arena-Hard v2</strong>（人类迷惑行为题库） | 61.5 | 79.2 |  +29% | 爆炸性增长！新的太懂人类了，连“女朋友说‘我没事’到底有没有事”都能分析出10层含义！ |

总结一句话：

> 新的 Qwen 不开“思考模式”，也能干出老版“开挂思考”时的成绩！
> 就像你以前考试要念咒语：“我要开始认真了！”
> 现在你妈一喊“吃饭了”，你边啃鸡腿边把卷子写完了。

✅ 优势：
- 结果差不多，但省了一大堆 token（token = AI的“脑力电费”）
- 不用手动开“思考模式”，它随时随地都在动脑，
就像你家那台永远不关机的路由器，半夜还在帮你刷题。

❌ 短板：
- 数学和编程还是稍微拉胯，
因为它没用“超长思维链”慢慢推导，
相当于别人在草稿纸上列了20步，它直接心算跳到第18步——
结果中间漏了个负号，答案炸了。

所以结论是？

> 新 Qwen（非思考） ≈ 老 Qwen（思考）
> 但更省电、更快、更丝滑，
> 就像从“手动挡烧油车”升级成“自动驾驶电车”，
> 虽然爬坡没以前猛，但日常通勤爽翻了！

阿里发布Qwen3-235B-A22B-Thinking-2507思考模型

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道