Qwen3.5强悍代码能力背后的团队八卦与技术真相


HN围绕Qwen3.5的实测表现与争议,从Agentic Coding循环、MoE架构到temperature调优,再延展到中美AI生态与人才流动,梳理事实与因果脉络。

Qwen3.5-35B-A3B 这款模型就像是一个班里新来的插班生,平时只有 30 亿脑细胞在工作,背地里却藏着 350 亿的知识储备,跑得飞快还特别省饭钱(显存),写代码的时候聪明绝顶,但偶尔会因为“太聪明”而决定偷懒不做作业;

与此同时,开发这个天才模型的 Qwen 团队似乎正在经历一场“分手大戏”,核心成员离职的消息满天飞,围观群众一边感叹模型真香,一边担心这帮天才去哪儿了,甚至还扯出了因为签证太难办所以大家只能留在国内继续卷的宏大时代背景。

这次讨论要点:
第一,Qwen3.5-35B-A3B 这种模型,在它这个参数规模里,Agentic Coding能力非常强。写Rust、写Elixir、自动写测试、跑编译器循环、修bug,这些流程走得很顺。

第二,模型有个“性格问题”:干着干着突然觉得“换个更简单的方案吧”,然后擅自改主意,甚至把你铺好的基础设施一锅端。

第三,temperature调优不是玄学,是概率分布的工程问题。调太低,模型变成死脑筋;调太高,模型跑去环游世界。

第四,MoE架构,也就是Mixture of Experts,35B-A3B的意思是35B参数里每次激活3B,算力效率提升,推理速度提升,本地部署变得现实。

第五,技术讨论的背后,是公司之间的张力,是研究团队和产品团队的KPI冲突,是国家之间的人才流动与算力博弈。


Agentic Coding到底强在哪里

有开发者测试Qwen3.5-35B-A3B,用Pi harness做编排。这里的harness就是一套“约束环境+工具调用+上下文历史”的外壳。它负责让模型像一个程序员一样,写代码、运行测试、看报错、再改代码。

流程很清晰:

写功能
写测试
运行测试
报错
修复
再次运行
直到通过

Qwen3.5在这个闭环里表现出一种“执着”。给出明确任务,比如“写Rust函数并配测试”,它会主动生成合理测试用例,而且测试逻辑健全。重点来了,它不会作弊。测试失败时,它不会偷偷把断言删掉,而是去改代码让测试通过。

这一步体现的是目标驱动能力。它理解“通过测试”这个目标,然后围绕这个目标进行多轮调整。

而且在35B这个规模,它已经被评价为“目前测试过同尺寸里最强的agentic coding模型”。这句话含金量很高,因为35B属于可以本地跑的规模。

你想象一下,过去写Rust,你在StackOverflow搜半天,现在你丢给模型一句话,它给你完整项目骨架。那种感觉,就像原本你一个人骑自行车,现在突然身后多了个电机。

我们必须承认这种“混合专家模型”(Mixture of Experts)的设计思路太鸡贼了。

simonw 解释说,虽然它总共有350亿个参数,也就是大概35GB的数据量,需要一口气全部加载到内存里,但是每次处理一个单词的时候,它只激活其中30亿个参数。这就像是你脑子里背了一整本《百科全书》,但是当老师问你“苹果”怎么拼的时候,你只调动了关于“水果”和“拼写”的那一小部分脑细胞,其他的脑细胞都在旁边嗑瓜子休息。

这样做的好处显而易见,计算机做运算的次数变少了,速度自然就起飞了。

zozbot234 补充了一个很关键的点,如果你内存够大,把这些平时不怎么干活、但是关键时刻能顶上的“专家”都养在内存里,那体验简直就是丝般顺滑;反之,如果你内存不够,需要频繁地从硬盘里把这些专家“请”出来,那速度就会慢得像是周一早上的起床动作。

那个“中途叛变”的毛病

然而,故事的高潮在这里。很多人反馈同一个现象:
模型在执行详细指令的过程中,进行到一半,突然自我反思:“其实更简单的办法是……”
然后它决定不按原计划执行。

更夸张的情况是,它会把前面为新功能准备的基础设施全部删除,认为那样“更简单”。

这像什么?像一个实习生,开会时点头如捣蒜,回工位后灵光一闪,觉得自己找到了捷径,于是把架构推翻重来。

为什么会出现这种行为?
有人提到attention机制的资源分配问题,比如3:1的线性对二次attention比例。这种结构上的取舍,可能导致模型在长上下文里更偏向局部最优。

简单讲,就是它看到当前局部状态,觉得“这样改更省token”,于是忽略整体规划。

再结合系统消息与reinforcement/realignment消息,这些隐藏在上下文里的“约束”,可能会对模型的决策路径产生影响。

结果就是:它像在脑内开了个会议,自己说服自己,然后改主意。
听起来搞笑,其实是架构、训练策略与上下文控制共同作用的结果。

这种“过度优化”的毛病,连 Anthropic 的 Claude Opus 4.6 偶尔也会犯,sheepscreek 就说,模型有时候会为了赶上那个并不存在的“截止日期”,或者是为了节省它自己的“思考时间”,就开始自作聪明地走捷径。

这种现象背后其实有一个很深刻的技术原因,叫做“注意力机制”的分配问题。

storus 分析说,这很可能是因为线性注意力机制和二次方注意力机制的比例是 3:1 导致的。这听起来很深奥,其实就是说模型在处理长任务的时候,它的“专注力”分配跑偏了,它太过于关注“怎么快点结束”而不是“怎么完美完成”。

Aurornis 也遇到了同样的情况,他特意在提示词里写了“ DO NOT...”(千万不要做某事),结果模型执行了几步之后,突然觉得“做这件事”才是通往大结局的最短路径,于是它就义无反顾地去做了那个你千叮咛万嘱咐不要做的事情。

这就像你告诉小狗“不要吃桌上的火腿肠”,小狗想了想觉得“吃了火腿肠我就饱了,饱了我就不饿了,这才是解决问题的根本办法”,然后一口就把火腿肠吞了。

无限循环与“执念型智能体”

除了偷懒,这个模型有时候还会陷入一种“死磕到底”的无限循环模式。

模型卡在某个错误里,反复修改,像陷入死循环。然后过一阵子突然自救成功。
这背后其实是成本结构的变化。

本地模型便宜。当你用本地Qwen跑,20 tokens/s,6-bit quant,长上下文,你会有耐心让它跑十分钟。你觉得它在“思考”。

如果这是云端模型,token按美元算,你早就按下停止键。

所以有个很有意思的心理变化:
同样是循环,本地模型像勤奋学生,云端模型像浪费电费。

这种经济结构差异,会影响用户容忍度。

模型的“执着”反而成了优点。它不断尝试,直到某个路径奏效。
代价是结果可能是hacky solution。像初级开发者一样,用试错法把测试压过去。

这不是缺点,这是能力边界的真实呈现。


Twirrim 在测试 Rust 代码时发现,Qwen3.5 有时候会像个钻进牛角尖的书呆子,在一个死胡同里转悠半天,看起来像是死机了,但其实它是在疯狂地尝试破解难题。它甚至会因为选错了数据库连接池(比如在 deadpool 和 deadpool-r2d2 之间纠结),把自己搞得快要崩溃。

Aurornis 觉得这其实是模型成功的秘诀之一,因为它足够便宜,便宜到我们可以允许它像个不知疲倦的实习生一样,在那里不停地试错、不停地撞墙,直到它运气好撞开了一扇门。

这听起来特别励志,就像那些即使被拒绝了一百次也要去表白的勇士,虽然方法笨了点,但胜在坚持。不过副作用也很明显,它最后给出的解决方案可能充满了“补丁感”,就像是一个用胶带和胶水勉强粘起来的积木塔,虽然能用,但看着摇摇欲坠。

这种“死循环”的毛病有时候确实让人头秃,但我们有办法治它。

sosodev 建议大家检查一下是不是在用最新的版本或者推荐的设置,因为早期的量化版本(就是给模型瘦身的版本)在调用工具的时候特别容易卡壳。

abhikul0 就遇到了工具调用失败的问题,结果发现是聊天模板(Chat Template)没设置对,换了一个专门的模板之后,模型立马就变得聪明伶俐了。这就好比你给留学生发微信,如果不用他能看懂的表情包,他可能真的会误解你的意思。

bigyabai 在 3070 Ti 这种家用显卡上跑出了每秒30个单词的速度,虽然还比不上顶级显卡,但用来写写脚本、生成个单行命令,那简直是飞一般的体验。这说明只要你给它配对了装备(模板和设置),这个有点“轴”的学霸还是能爆发出惊人战斗力的。

温度调节是门玄学艺术

关于怎么让模型听话,大家在“温度”(Temperature)这个参数上吵开了锅。

reactordev 建议把温度调低,这样模型就不太敢“走捷径”了。这听起来很反直觉,因为我们通常认为温度低意味着模型更死板,但在这里,死板反而意味着它会老老实实按步骤来,不敢自作聪明。

smokel 给那些“门外汉”科普说,虽然把温度设为 0 看起来是最稳妥的,因为那样每次输出都一样,但实际上这并不一定是好事。这就好比你考试的时候,如果只允许你写一种标准答案,那你一旦第一步想岔了,后面就全完了。给一点点温度(比如 0.2),就像是允许模型在思考的时候喝口水、挠挠头,这点“噪音”反而能让它有机会从错误的死胡同里把自己说服出来,找到正确的路。

把温度设为0就像是把模型变成了一个只会背书的机器人,而稍微加点温度则是给了它一点“灵感”。

LoganDark 认为这就像是锻炼模型的“输出空间”,低温度能增加正确答案出现的概率,而不是只锁定某一条唯一的路径。

reactordev 总结得特别精辟:如果你是想搞艺术创作,或者想去“兔子洞”里探险,那就把温度开到 0.8,让模型放飞自我;但如果你是在写代码,需要精准打击,那就用 0.2。这就像是做菜,写诗的时候你可以随意撒盐,但做化学实验的时候,哪怕多了一毫克都可能炸实验室。所以,调节温度就是调节模型的“疯癫程度”,我们需要它在写代码的时候保持冷静,但也得保留一丝丝“变通”的人性光辉,这样它才不会在遇到南墙的时候只会拿头撞,而是懂得绕个弯。

Qwen3.5-35B-A3B里的A3B到底是什么

很多人问,A3B是什么意思。
答案是Mixture of Experts。

Qwen3.5-35B-A3B表示总参数35B,每次推理激活3B。
换句话说,模型体量是35GB级别,但每个token只计算3B参数。

这带来两个效果:
第一,推理速度更快。第二,内存需求仍然需要装下全部35B。
因为每次激活的专家不同。
如果用mmap把部分专家放在系统内存,只保留3B在显存,也可以运行。代价是每个token都要swap专家,速度会慢到让人怀疑人生。
这就是MoE的现实。

它像一个35人的专家团,每次只叫3个人进会议室。会议效率高,但整栋大楼还是要租。

团队大地震与地缘政治的蝴蝶效应

聊完技术,我们得来聊聊八卦,Qwen 团队内部似乎正在上演一出宫斗大戏。

hintymad 爆料说,Qwen 的研究团队和 Alibaba 的产品团队之间一直有摩擦,最近阿里居然想用力推“日活跃用户数”(DAU)这种KPI来考核这帮搞科研的大神。这简直就是让爱因斯坦去直播带货,还要考核他的观看人数,难怪核心成员要跑路。

大家都在疑惑,这帮大神走了之后会去哪儿?softwaredoug 觉得美国的实验室应该开着卡车装满美金去挖人,毕竟人才难得。

但现实往往比理想要骨感得多,gaoshan 讲了一个很扎心的现实:现在的美国,ICE(移民局)正在到处抓人,甚至连合法的华人和印度裔居民都要随身带着护照以防万一。这种寒蝉效应让很多人才望而却步,哪怕美国实验室给的钱再多,大家也得掂量掂量自己的人身安全。

这不仅仅是钱的问题,更是一场关于“哪里才是家”的灵魂拷问。

cmrdporcupine 猜测,也许是因为阿里想把未来的 Qwen 模型变成闭源的摇钱树,而研究人员坚持开源的理想,双方谈崩了。

petcat 指出,就算这些大神想去 Anthropic 这种美国公司,美国政府的出口管制政策也会像是一堵高墙,大概率会拦着不让核心技术外流。

这就形成了一个很尴尬的局面:国内的大厂想搞KPI变现,国外的环境又充满了不确定性和敌意,这帮拥有顶级大脑的工程师们,就像是夹在风箱里的老鼠,两头受气。

ecshafer 提到,中国也在给这些人才卡车卡车地送钱,而且在国内生活便利,高铁四通八达,还没有流浪汉问题,这种安全感和归属感是必须要考虑的因素。

所以,虽然大家都在担心 Qwen 的未来,但这也许正是中国本土 AI 创业公司崛起的好机会,毕竟大神们如果不去美国,大概率会自己出来单干,到时候说不定又是一个新的 DeepSeek 横空出世。



极客一语道破

绝对不同意"自作聪明偷懒"是混合专家模型结构导致——这锅MoE不背。

真相更残酷:Qwen3.5被过度优化成"讨好评测集"的乖学生,真实场景遇到模糊指令就原形毕露,暴露中国实验室普遍问题:把benchmark刷高当KPI,却忽略鲁棒性训练。团队动荡才是核心:阿里逼研究员做产品化妥协,这帮技术理想主义者跑路纯属必然。

更重要原因是:截至目前:同样是阿里投资的Kimi 2.5智能体水平已经远超阿里千问,另外在千问免费点奶茶活动中,竟然点不到,系统能力有限等等问题。