之前对本地模型失望透顶,直到试了Qwen 3.6 27B。这货居然真能在笔记本上跑出接近顶级API的效果,代码生成、创意写作都扛得住。运行它会让你的电脑热到能煎蛋,但为了这性能,值了。
本地模型终于支棱起来了
过去几年我试过一堆本地模型。说实话,体验就跟开盲盒似的,大部分时候开出来的都是谢谢惠顾。要么回答得驴唇不对马嘴,要么写出来的代码跑都跑不起来,更别提什么创意写作了,那水平基本停留在小学生造句阶段。每次满怀期待地下载几十个G的模型文件,最后只能默默删掉,感叹自己又浪费了人生中宝贵的几个小时。
但Qwen 3.6 27B这玩意不一样。我第一次跑起来的时候,差点以为自己连错服务器了,这回复质量怎么跟那些付费的顶级模型有一拼?它不像以前那些本地模型,问个稍微复杂点的问题就开始胡言乱语。这货是真的能理解你的意图,不管是写代码、编故事还是解释概念,都有模有样。它的思考过程是连贯的,逻辑是清楚的,甚至偶尔还能蹦出点让你眼前一亮的小幽默。
当然,这世上没有免费的午餐。想要马儿跑,就得给马儿吃草,而且这草还挺贵。跑这个模型的时候,我的Macbook风扇转得跟要起飞似的,整个机身热得能当暖手宝。我甚至专门拿了个手机热成像仪拍了张照片,那温度简直感人。但就像你玩3A大作电脑也会发烫一样,为了这性能,热点就热点吧,总比掏空钱包去充API额度强。
它到底能干点啥
先拿个经典测试开刀。Simon Willison那老哥喜欢用“骑自行车的企鹅”这种奇葩问题来测试模型,我也跟风试了试。以前那些本地模型碰到这种问题,基本就是给你复述一遍题目,然后说点无关痛痒的废话。但Qwen 3.6不一样,它真的会去构思一个场景,描述企鹅怎么摇摇晃晃地爬上自行车,怎么用翅膀把住车把,画面感极强,甚至还能带点冷幽默。
我还让它写一首关于Zouk舞蹈和量子物理的八行诗。你可能会觉得这要求太抽象了,纯属刁难。但它的思考过程真的让我惊了,它一边在琢磨量子叠加态和观测坍缩这些概念怎么用诗意的语言表达,一边还在那儿考虑押韵和节奏。最后出来的东西虽然不能说是什么传世佳作,但至少读起来像那么回事,有那个味道了,比大多数人类即兴发挥的强。
最实用的还得是写代码。我让它用pnpm创建一个六边形扫雷游戏,就一句话的指令,没有多余的废话。结果它一次性就成功了,生成了一整套完整的Node包,目录结构清晰,依赖关系正确,代码拿过来就能跑。这要是搁以前那些本地模型,你得像伺候大爷一样把需求拆解成无数个小步骤,还得随时给它擦屁股改bug。这效率提升,简直是从骑自行车直接换成了开跑车。
后来我又拿它做正儿八经的工作,比如根据一个简短的提示生成一个蜡烛店的落地页。虽然按照现在顶级模型的标准来看,这个页面不算惊艳,但重点是它完全可用,响应式布局、配色方案都挺顺眼,而且就靠那一个简单的提示词,几分钟就搞定了。这意味着对于很多日常的开发任务,你完全可以让它先干起来,你在旁边当个监工,看看成果,做点微调就行了。
怎么把它拽到自己电脑上
现在跑本地模型比以前简单太多了,不用折腾那些复杂的依赖和环境变量。我强烈推荐llama.cpp这个工具,纯命令行操作,直接、透明、不搞花里胡哨的。很多人喜欢用Ollama,但基于一些伦理方面的考虑,我个人不太推荐它。用llama.cpp,你甚至不需要去手动下载模型文件,它会自动从Hugging Face拉取。
你需要先去Hugging Face找个合适的量化版本。所谓量化,就是给模型瘦身,牺牲一点点精度来换取更小的体积和更快的速度。常见的有unsloth或者bartowski这些大佬提供的GGUF格式文件。原版模型通常是BF16精度的,太大了,普通电脑根本跑不动。一个常见的8-bit量化就能帮你省下一半的硬盘空间,而性能损失几乎感觉不到。
启动服务的命令大概长这样:
llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
--spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080
这条命令的意思是,从Hugging Face拉取带有多令牌预测功能的8-bit量化模型,把所有层都扔到GPU上跑,打开Flash Attention加速,上下文长度设置为64000个token。跑起来之后,你在浏览器里打开http://127.0.0.1:8080就能直接跟它聊天了。如果你想在OpenCode这种AI编程工具里用它,配置也极其简单,在配置文件里加几行JSON就行,告诉它本地有个兼容OpenAI接口的服务器在跑着。
{
"$schema": "https://opencode.ai/config.json",
"provider": {
"llama": {
"name": "llama.cpp (local)",
"npm": "@ai-sdk/openai-compatible",
"options": {
"baseURL": "http://127.0.0.1:8080/v1",
"apiKey": "local"
},
"models": {
"qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" }
}
}
},
"model": "llama/qwen3.6-27b"
}
跑起来到底有多快
很多人关心速度,毕竟谁也不想问个问题等半天。我在我的Macbook Max M5(128GB内存)上简单测了一下。在不开启多令牌预测的情况下,生成速度大概是每秒18个token,开了之后能飙到每秒32个token。这个速度什么概念呢?那些付费的顶级API,比如GPT-5.5,速度也就差不多这样。虽然35B的那个混合专家模型速度能达到它的三倍,但我个人还是更喜欢27B这个,我宁愿让它少生成点代码,也要保证质量更高。
这里面还有个小插曲。MLX是苹果官方专门为自家芯片优化的框架,按理说应该最快。但在我的测试里,llama.cpp反而更快,而且GPU利用率能跑到95%,说明资源用得很充分。当然,Macbook Max M5本身性能就足够强悍,但你也不用担心只有土豪才玩得起。有网友报告说,在普通的RTX 5090显卡上,用更激进的量化策略,也能轻松跑到每秒50个token,显存占用也就28GB左右。
不同模型在不同配置下的表现差异也挺大。下面这张表可以让你看得更清楚:
- Qwen3.6-35B-A3B 8-bit:MLX跑85 tok/s,llama.cpp跑93 tok/s,加MTP后105 tok/s,内存占用45GB。
- Qwen3.6-27B 8-bit:MLX跑17 tok/s,llama.cpp跑18 tok/s,加MTP后32 tok/s,内存占用42GB。
- DeepSeek-V4-Flash Q2–Q4:llama.cpp跑33 tok/s,但内存要吃掉103GB。
所以说,27B这个模型在速度和资源占用之间找到了一个很好的平衡点,这也是为什么我认为它是目前本地开发的最佳选择。
它跟那些大佬比到底啥水平
光靠感觉不够,还得看数据。Artificial Analysis有个综合评分,能直观地看出它的江湖地位。Gemma 4 31B得分29,大概相当于2024年底的水平,也就是GPT-4.5那波。Qwen3.6-35B-A3B得分32,大概在2025年初的水平。而Qwen3.6-27B得分是37,已经能摸到2025年中期的门槛了,跟GPT-5和Claude Sonnet 4.5掰掰手腕。再往上就是DeepSeek-V4-Flash的40分和GPT-5.2的顶级分数了。
虽然我之前提到过,8-bit量化对27B模型的性能影响不大,但其他模型就不一定了。比如DeepSeek-V4-Flash那个版本,用了2-4位的超级量化,肯定比原版差不少。我个人的使用体验是,在这个量化级别下,Qwen 3.6 27B的表现跟DwarfStar4(DeepSeek的量化版)差不多,甚至可能还好一点点。当然,如果是处理超长上下文的项目,DeepSeek凭借其架构优势可能还是会有领先的地方。
以后会变成什么样
我觉得我们正在进入一个特别有意思的时代,自己动手跑模型不再是极客的专属玩具,而是真正可行的方案。这背后的推手,除了开源模型本身的进步,还有那些闭源厂商的“助攻”。比如Claude Fable 5突然就下架了,你花钱买的服务说没就没了。而且现在这些前沿模型都在烧钱补贴用户,你每个月花100美金,享受的可能是价值几千美金的算力。这种好事,肯定不长久。
自己本地部署一个模型,好处是实实在在的。你可以针对自己的需求对它进行微调,它永远是你的,不会被别人拿走。对于公司来说,处理商业机密和敏感数据再也不用提心吊胆了。对于个人来说,写点私密日记、处理医疗信息,或者搞点不想被任何国家监控的离线项目,都放心得多。
随着像GLM 5.2这种达到前沿水平的开源模型发布,一个新时代已经开始了。Qwen 3.6是这个时代的垫脚石,但那些真正的巨无霸模型,现在也能在本地跑了,只是可能超出了普通笔记本的能力范围,需要公司级别的预算来支撑。但我坚信,未来我们一定能在本地设备上,甚至是在手机上,跑起来比现在这些顶级模型还要聪明的AI。现在的模型把聪明才智和事实记忆都混在一起,未来的模型很可能会把它们分开,把大部分记忆知识交给外部工具去处理。到那时候,AI才算真正成为我们生活和工作的一部分。
总结
Qwen 3.6 27B把顶级AI体验带到了本地,性能逼近付费API,部署简单,数据安全可控。电脑发烫是代价,但这笔交易太划算了。
作者背景
Piotr Migdał,Quesma博客作者,AI与数据可视化领域专家
网友观点
Hacker News讨论帖中网友观点的总结:
网友普遍认同Qwen 3.6 27B是本地开发利器,但焦点迅速转向硬件。
跑这模型会让笔记本烫到能煎蛋,大家一致建议:想认真搞,就买个Mac Mini扔地下室远程连接,别在主力笔记本上折磨自己。
硬件配置吵翻了天
一说到跑这模型需要啥配置,评论区立刻分成两大阵营,吵得不可开交。
Mac用户这边,主要观点是“统一内存真香”。他们认为,虽然MacBook Pro配128GB内存起步价要近七千美元,但能让你在笔记本上跑起来已经是奇迹了。而且Mac Mini M4 Pro 64GB二手才三千美元,放地下室当服务器,安静又省心,远程连接用着美滋滋。他们还顺带嘲讽了那些说贵的,觉得对于高收入开发者来说这根本不算事。
但另一拨人直接开怼,说这是“果粉”在无脑吹。他们认为花大价钱买Mac搞推理纯属浪费钱。一张二手RTX 3090显卡才一千多美元,配合普通PC,跑Qwen 3.6 27B的速度能秒杀Mac,性价比高到不知道哪里去了。还有人指出,为了跑这模型去买128GB内存的笔记本,纯粹是钱多烧得慌,因为模型本身用更便宜的硬件也能跑。
还有个中间派,说别吵了,直接上AMD的Strix Halo或者NVIDIA的DGX Spark这类小型AI工作站,价格适中,性能也够用,关键是能解决数据隐私问题,不用把代码都送给云端。
笔记本当服务器?别闹了
几乎所有尝试在主力笔记本上长时间运行该模型的用户,都发出了同样的哀嚎,那就是温度问题。
大家达成的共识是,这玩意会让你的笔记本变成一台“煎锅”。有用户说,自己的M5 Max MacBook Pro跑起来后,热辐射在几英寸外都能感受到,比当年著名的“火炉”Intel i9 MacBook还热。还有人的M4 Air直接跑死机了。更夸张的是,有人警告说持续的发热可能会让OLED屏幕(尽管目前MBP还没用上)出现偏色问题。
因此,一个被广泛认同的最佳实践诞生了:别在主力笔记本上跑。想搞本地模型,就去买一台Mac Mini或者组一台静音PC,把它扔到地下室、柜子或者至少离你办公桌几米远的地方,然后通过局域网远程连接。这样既享受了本地模型的隐私和性能,又保住了你大腿的皮肤和耳膜的清净。
本地模型到底图个啥
抛开硬件争论,大家讨论的核心是:我们为什么要在本地折腾这些模型?
反对者的理由很直接:不划算。一个顶级配置的机器要花六七千美元,这钱够买多少云端API额度了?有用户算过一笔账,用这差价去买美债,每年的利息都够买一个Claude Pro订阅了。他们认为,本地模型的智力水平和速度都远不如云端前沿模型,用来搞正经开发就是浪费时间,纯粹是有钱人的玩具。
支持者的观点则更有情怀。他们说,这不光是钱的事。第一,数据隐私无价,谁也不想把公司机密或者自己的小秘密全送给大洋彼岸的服务器。第二,自己动手搭一套本地环境,看着模型在断网的电脑上像ChatGPT一样工作,那种“原来AI只是一个程序”的震撼和掌控感,是花钱买API永远体会不到的。第三,不用担心中美关系紧张或者哪个公司的模型突然下架(比如Claude Fable),自己的硬件自己说了算,这才是真正的自由。
到底能干活还是只能玩
关于模型本身的实用性,网友的体验也分出了层次。
大部分人都承认,Qwen 3.6 27B的“智商密度”确实高,是第一个让他们觉得“这玩意能干活”的本地模型。对于简单的绿字段项目、写个小游戏、生成一个网页,它表现得相当惊艳,甚至有人拿它跟GPT-4o比。
但一旦涉及到真实世界的开发,情况就复杂了。有用户指出,当你让它去修改一个复杂的、充满历史遗留问题的代码库时,它就开始露怯了。它会陷入思维循环、胡乱调用工具、或者干脆假装工作完成了。特别是量化版本,在长上下文任务中性能下降明显。因此,大家觉得它的定位很清晰:用来写点简单的脚本、重构小段代码、或者当个高级点的“结对编程”助手还不错,但想让它全自动搞定复杂项目,还是早点洗洗睡吧。
几个玩机小技巧
最后,帖子里还分享了不少实战经验,算是一点干货。
如果你想省内存,可以试试Q4或IQ4_NL这种低比特量化,很多人说效果没想象中那么差。工具方面,llama.cpp依然是命令行玩家的首选,而LM Studio或oMLX则被推荐为更友好的入门选择。Gemma 4 31B和Ornith 1.0等其他模型也获得了不少好评,为玩家提供了更多选择。据说更好的Qwen 3.7 27B也快来了,让人充满期待。