你的Mac跑本地AI智能体到底行不行?这篇全给你整明白了
摘要:在Apple Silicon Mac上跑Hermes Agent本地模型,从8GB到128GB内存怎么选模型、用什么后端、有哪些坑。MTP在Mac上反而更慢,工具调用经常翻车,16GB是底线不是甜点,Qwen3.6-35B-A3B是目前32GB以上Mac的社区默认选择。
下载哪个模型看你Mac内存有多大
你掏出钱包买了台Mac,打开这个帖子,脑子里就一个问题:我到底该下哪个文件。这个问题在r/hermesagent上被问了没有一百遍也有八十遍,社区里攒了二十多个帖子加GitHub问题追踪加独立测试数据,最后给出一张对号入座的表。
内存8GB的Mac用户,接受现实吧。你只能跑Qwen3.5-4B的Q4_K_M版本或者Gemma 4 E2B的Q4版本,后端用Ollama或者llama.cpp。别想着搞什么复杂的智能体工作流,聊个天、问个简单问题就是你的全部归宿。有人不服气想往上硬怼更大的模型,结果就是swap把机器拖成幻灯片。
内存16GB的用户,你处在及格线上。Qwen3.5-9B的Q4_K_M或者MLX 4-bit版本是你的菜,后端选llama.cpp兼容性最好或者Ollama也行。这个配置是Hermes能用的最低底线,但记住要给上下文留内存,KV缓存必须量化。有个M3 Pro 18GB的用户分享了他的救命组合:KV缓存4位量化加Hermes 0.8.0的懒加载技能加40K上下文窗口,第一条消息还是吃掉14K tokens,但后续消息降到600 tokens左右,从超时变成能正常聊天。
内存24GB的用户,你进入选择题了。Qwen3.6-27B的Q4_K_M或者Qwen3.6-35B-A3B的4-bit MLX版本二选一。密集模型编码能力和可预测性更强,MoE模型解码速度快得多,在Max芯片上能跑到约60 tok/s。
内存32到48GB的用户,恭喜你踩中了当前Mac跑本地模型的甜点。Qwen3.6-35B-A3B的4-bit MLX版本,如果OptiQ版本有的话优先选那个。这个模型总共35B参数,每个token只激活约3B,文件大约20GB,跑起来感觉像个3B的小模型。社区里M4 Max加这个组合的用户普遍反馈很好。
内存48到64GB的用户,你有两个选择。要么上Qwen3.6-27B的Q6_K或Q8版本追求密集模型的质量,要么上Qwen3.6-35B-A3B的8-bit版本。Q6/Q8的密集模型是认真搞智能体工作的推荐量化级别。
内存64到96GB的用户,你可以玩Gemma 4 26B-A4B的Q4版本作为Qwen之外的备选,或者继续上Qwen3.6-27B的Q8。内存128GB以上的土豪用户,跟64GB以上用同样的模型但量化更高,DeepSeek V4 Flash实验版也可以试试。但社区有个哥们拿着M1 Ultra 128GB跑得很难受,因为更多内存解决不了后端的bug,智能体本身的开销才是真正卡脖子的地方。
选哪个后端服务器看你想要什么
llama.cpp走GGUF路线,兼容性最好。你拿它跑几乎所有格式的模型都不出岔子,KV缓存控制很细,支持视觉模型和Jinja模板。启动命令长这样:
llama-server -m ~/models/model.gguf \
-ngl 99 -c 65536 -np 1 -fa on \
--cache-type-k q8_0 --cache-type-v q4_0 \
--host 127.0.0.1 --port 8080 --jinja
Hermes自己的测试里llama.cpp的首个token生成时间最快。对于16GB的Mac,上下文从64K开始往上加,别一上来就开128K。但是注意,MTP在Metal上完全是负优化,千万别开。有人不信邪开了Qwen3.6-35B的自带MTP,基准测试26.2 tok/s直接掉到1.93 tok/s,慢了十三倍多。
MLX-LM和oMLX这条路追求生成速度。特别是MoE模型上,MLX能比llama.cpp快20%到30%,模型越大差距越明显。Qwen3.6-35B-A3B的4-bit在M1 Max 64GB上跑到61.2 tok/s,同机器的密集27B 4-bit只有16.7 tok/s。安装和启动很简单:
pip install mlx-lm
mlx_lm.server --model mlx-community/Qwen3.6-35B-A3B-4bit --port 8000
但MLX-LM在2026年6月有几个已知bug。Qwen3.5和3.6的非Coder版本可能不发tool_calls,解析器自动检测跟它们的聊天模板对不上。MTP变种在第二轮请求时只返回1到2个token的补全,所以别用MTP的MLX版本做多轮对话。Qwen3-Next混合架构上提示缓存会失败。
Ollama是上手最简单的,零配置直接开干。安装命令三行搞定:
brew install ollama
ollama pull qwen3.6:35b-a3b-mlx
ollama serve
v0.19版本开始支持MLX后端,M5 Max上解码速度翻倍,预填速度约1.6倍。v0.30.x加了Gemma 4的MLX支持和自动开启flash attention。社区里对Ollama有分歧,有人觉得MLX版响应快内存分配好,有人觉得还是纯MLX-LM服务器更快,毕竟Ollama底层对非MLX模型还是llama.cpp的包装。
Ollama在2026年6月有两个已知bug很要命。v0.30.8在M4 Max 64GB上KV缓存内存泄漏,内存从24GB涨到75GB,token生成直接被swap拖垮。MLX后端还有请求间延迟回退的问题。如果Hermes工具循环卡住或者变慢,先拿同一个模型在llama.cpp或MLX-LM上测一遍,别急着怪模型。
LM Studio适合不想碰终端、喜欢图形界面管理模型的人。它暴露OpenAI兼容的API在1234端口,同时支持GGUF和MLX。但社区反馈不太好,有个36GB M4 Max的用户用Gemma 26B,LM Studio会随机忘记已安装的工具,过期token不报告,有时干脆不回答。工具调用解析器在某些版本里会把Qwen3.5生成的正确JSON截断或解析错。Gemma 4的工具调用在MLX后端会把原始函数标记泄漏到消息内容里,GGUF后端的解析器能用但慢约50%。
Rapid-MLX是2026年6月新冒出来的,主打速度。宣称比Ollama快2到4倍,缓存TTFT只要0.08秒,自带17个工具解析器,100%支持工具调用,跟OpenAI接口完全兼容能直接替换,Hermes、Claude Code、Cursor、Aider都能用。GitHub上三千多星,截至2026年6月21日还有提交记录,是目前Mac上工具调用可靠性最强的后端。Lightning MLX是Rapid-MLX的一个分支,专攻智能体场景,短流式轮次、工具调用、低延迟交互,宣称在兼容硬件上能跑到220 tok/s。
Qwen3.6系列各型号怎么选
Qwen3.6-35B-A3B是2026年4月16日发布的,MoE架构35B总参数每个token只激活约3B,Apache 2.0许可证。GPU QA Diamond评分86.0,SWE-bench 73.4%,原生上下文262K通过YaRN能扩展到约1M。最佳量化是MLX 4-bit约20.4GB,OptiQ 4-bit混合4位和8位在BFCL和HashHop上表现更好。非审查版本有HauhauCS Aggressive和DavidAU Heretic,但那是进阶选项,先拿原版跑通再说。
聊天模板必须用Jinja。工具调用要求模板正确,现代运行时原版就没问题,如果翻车可以用spiritbuun的模板。采样参数方面,做编码和工具循环时开思考模式温度0.6 top_p 0.95 top_k 20。做研究和聊天开思考模式温度0.8到1.0 top_p 0.95 top_k 20。不开思考模式时温度0.7 top_p 0.8 top_k 20 presence_penalty设1.5。
Qwen3.6-27B密集模型是2026年4月22日发布的,27B密集参数Apache 2.0,SWE-bench Verified 77.2%。Simon Willison测过Unsloth的Q4_K_M版本跑出25.57 tok/s,结果是旗舰级的。最佳量化Q4_K_M适合24GB内存文件16.8GB,Q5_K_M适合32GB以上,Q6_K和Q8适合48GB以上。Q6是认真搞智能体工作的推荐量化,Q4在长工具追踪时可能会漂移。DavidAU的Heretic NEO-CODE变种截至2026年6月11日有超过52万次下载。
Qwen3.5-9B是官方文档推荐的Mac入门模型,成熟文档齐全。最佳量化Q4_K_M GGUF是实际默认选择,MLX 4-bit也行。如果内存有余量上Q6_K工具可靠性更好。非审查用途有HauhauCS Aggressive版本。
Gemma 4家族是Qwen之外的备选。Gemma 4 12B是Google定位给本地智能体和多模态笔记本工作流的,16到24GB内存可以试试。Gemma 4 26B-A4B共26B参数每token激活约4B,256K上下文,32GB以上内存的MoE备选。Gemma 4 31B是密集模型,64GB以上优先。E2B和E4B是轻量版,适合做快速辅助或路由模型。有个坑是mac-llm-bench测Gemma 4分数异常低,因为llama.cpp的工具调用bug导致推理提前停止,不是模型本身不行。Gemma开思考模式要在系统提示词开头加<|think|>,别把之前的思考块喂回历史里。
这些坑能让你白折腾四个小时
MTP在Mac上更慢这件事已经实锤了。Unsloth和模型卡宣传MTP能提速1.4到2.2倍,但Apple Silicon Metal上所有配置都是净损失。llama.cpp #23752确认基准25.3 tok/s掉到19.3 tok/s,少了24%。Qwen3.6-35B的自带MTP更惨,基准26.2 tok/s掉到1.93 tok/s少了92%。在Mac上开--spec-type draft-mtp就是自残。
工具调用跨后端翻车是Hermes用户翻车原因第一名。MLX-LM上Qwen3.5和3.6非Coder版的工具解析器对不上。Ollama MLX上KV缓存泄漏导致swap死亡,工具循环卡死。LM Studio上解析器截断Qwen工具调用,Gemma MLX泄漏原始标记。解决方案是任何后端上线前先用工具调用提示词测一遍/v1/chat/completions接口。一个后端挂了换另一个再试,别上来就怪模型。
16GB只是地板不是甜点。macOS加其他应用吃掉内存后实际可用只有10到12GB,这就是Qwen3.5-9B Q4_K_M加64K上下文加量化KV的配置。硬塞14B或27B进swap结果会非常痛苦。用强9B配好量化比用残废大模型强得多。2B和4B模型对Hermes工具调用完全不可用。有人拿Gemma 4 E2B在Mac Mini M4 16GB上测试,连list my Google Drive files这种请求都处理不了。Gemma 4 E4B生成的工具调用是无效的。Qwen3.5-9B花了15分钟勉强算能工作。社区共识是7B到9B是工具调用的最低门槛,2B和4B只是聊天机器人不是智能体。
带宽比芯片代际更重要。M3 Max有400 GB/s带宽生成token比M4 Pro的273 GB/s还快。LLM推理的瓶颈是内存带宽,买Mac跑Hermes的话Max大于Pro大于基础款,哪怕旧一代的Max也值得优先考虑。
智能体上下文税是个隐藏吞金兽。Hermes的编排开销在模型真正干活之前就吃掉大量上下文。有用户实测说声hi智能体回复大约要15K tokens。另一个人说等着等着以为它死了结果30分钟后回来了,因为它在仔细写新技能。这对本地Mac尤其致命因为上下文等于内存。解决办法是用量化KV缓存降低臃肿上下文的成本,保守设置上下文窗口64K而不是128K以上,考虑用小而快的模型做编排把重活委托给云端子智能体。有人在用Gemma 4 E4B做轻量编排然后委托给前沿模型。
KV缓存是隐形的内存杀手。上下文消耗RAM的速度比模型权重快得多。16GB Mac跑Qwen3.5-9B Q4_K_M,128K上下文加fp16的KV缓存光缓存就吃掉8GB。必须用量化KV:--cache-type-k q8_0 --cache-type-v q4_0。Ollama用户设OLLAMA_KV_CACHE_TYPE=q8_0和OLLAMA_FLASH_ATTENTION=1。
Qwen过度思考在内存受限的Mac上很要命。Qwen模型在最简单的提示词上也会过度思考,内存受限的Mac上长思考链加Hermes已经很大的系统提示会瞬间超时。简单关掉思考模式就能从等15分钟超时变成正常工作,虽然复杂多步任务不理想但16到18GB机器上这是生死之别。
Hermes Agent配置命令和社区实战配置
任何本地OpenAI兼容服务器都先验证模型端点:
curl -s http://127.0.0.1:8080/v1/models
然后配置Hermes:
hermes config set model.provider custom:local-mac
hermes config set model.base_url http://127.0.0.1:8080/v1
hermes config set model.api_key local-no-key
hermes config set model.default MODEL_ID_FROM_ABOVE
2026年6月2日发布的桌面应用v0.15.2配置模式一样,把provider设到本地端点就行。
社区真实配置五花八门。Britbong1492用M4 Max跑Qwen3.6:35B-A3B本地约80 tok/s TTFT 0.3秒,95%本地5%用Kimi k2.6做备用,每个智能体每周成本约1美元。310dweller用M4 Mac mini 32GB跑Gemma 4 26B 4-bit MLX通过oMLX,比Ollama云端还快,但思考循环调参比较折腾。Tacamaniac用M1 Max 64GB同时跑Qwen 7B和35B在MLX上,从Docker迁移到原生macOS,对比GPT-5.5说表现更好但十分钟试下来花了一美元五。
italianamerican985用M1 Ultra 128GB跑Qwen3.6-35B Q4速度80 tok/s,但感觉比Minimax或27B犯的错误更多,MTP没有提速。EfficientShop5015用M2 Max 32GB说本地能用但跟API没法比。TanguayX用M2 Ultra 64GB跑Qwen3.5和Gemma 4,说上下文窗口后半段慢得没用,瓶颈是Hermes编排开销不是模型速度。asankhs推荐Qwen3.5-9B OptiQ 4-bit量化。BassAzayda在16GB显存GPU上跑Qwen3.6 35B A3B超过42次工具调用没出问题,第一次稳定对话。GyGeek用Framework Desktop 128GB跑Qwen3.6-27B-Q8_0说有点慢但有效。
M4 Max加Qwen3.6:35B-A3B正在成为社区最好的本地Hermes配置。M1和M2 Ultra用户内存更大但卡在别的地方,智能体开销和上下文窗口减速跟模型能力无关。
常见问题答疑
问:Mac Mini M4 32GB为什么Qwen3.5-9B工具调用失败?大概率是后端不是模型。Ollama上显式用MLX后端(qwen3.5:9b-mlx)。还不行换llama.cpp或测试Rapid-MLX。Qwen3.5-9B本身支持工具调用,是后端常弄坏解析器。
问:16GB MacBook能跑Hermes吗?可以。用Qwen3.5-9B Q4_K_M加量化KV cache和64K上下文。别指望重型多工具会话,研究、聊天、简单自动化没问题。
问:为什么我的模型只有3 token/s但评测说25+?三种常见原因:模型回退到CPU了(llama.cpp检查-ngl 99,或检查Ollama GPU使用率);开了MTP(Mac上立即关);上下文窗口太大进交换分区了。
问:MLX还是GGUF更适合Hermes?MLX追求生成速度,特别是MoE模型。GGUF/llama.cpp追求KV cache控制、视觉支持和最大兼容性。Hermes工具循环中,llama.cpp可预测的行为往往更稳,尽管原始生成慢一些。
问:Ollama、LM Studio还是原生llama.cpp/MLX-LM?Ollama安装最简单。LM Studio给喜欢图形界面的人。llama.cpp/MLX-LM给追求最大控制和调试能力的人。Rapid-MLX给速度优先和工具调用可靠性优先的人。
问:Qwen3.6-35B-A3B够格替代云端吗?对大多数Hermes工作流来说——是的。350亿参数MoE在Mac上提供了旗舰级行为。社区共识是它已成为32GB+ Mac的2026年默认选择。极复杂多步推理比不上GPT-5.5/Claude,但处理文件、代码、网页和结构化输出很可靠。
问:无审查模型怎么样?先用官方版本。想要无审查,Heretic和HauhauCS Balanced文档最全。Aggressive/Huihui版本存在但先用工具调用测试。无审查不等于更好的智能体。
问:M1 Ultra 128GB反而跑不动?这是社区真实提问。更多RAM不解决后端bug。验证后端(Ollama vs llama.cpp),检查MTP是否开了,先用简单模型测试,确保KV cache量化。但有用户发现“智能体本身吃大量内存/资源——我说‘hi’它大约花15000 token回复”。硬件够强,软件栈和智能体开销才是瓶颈。
问:M5芯片对Hermes提升大吗?M5 Max带宽约614 GB/s对M4 Max约546 GB/s——token生成快约12%。更关键的是M5神经加速器,Apple声称MLX模型TTFT提升4倍。实际体验:小幅改进但对LLM推理不是革命性的。2026年6月供应受限。
问:Gemma 4还是Qwen3.6?Qwen3.6-35B-A3B追求速度和智能体编程。Gemma 4 26B-A4B如果你想要非Qwen的MoE备选或需要多模态/图像能力。两者都强,但Qwen在Hermes上有更多社区验证。
问:Mac上最快推理引擎是什么?Rapid-MLX(2026年6月)宣称比Ollama快2-4倍,100%工具调用。Lightning MLX宣称220 token/s。两者都比llama.cpp和Ollama新,经得起大规模测试的少。追求可靠性用llama.cpp或Ollama。追求速度就测Rapid-MLX。
问:混合云/本地值得吗?值得——这是当前社区共识。本地模型最大帖子里最高赞评论(+35)推荐20美元Codex计划做回退。M4 Max用户95%本地Qwen3.6:35B-A3B(约80 token/s,TTFT 0.3秒),回退Kimi k2.6每百万token不到1美元,每周总共约1美元。这个模式——常规工作快速本地,困难任务便宜云端——是现实中的甜点。
问:用Hermes在本地Mac编程合适吗?社区有分歧。有人(包括“真本地运行?”的发帖者)说“Hermes不是用来编程的——它是编排智能体。用Claude Code或OpenCode做子智能体。”也有人用Qwen3.6-35B-A3B或Qwen3.6-27B本地成功编程。共识:Hermes擅长编排——把编程任务委托给专门的子智能体。如果你想要直接写代码的单一模型,云端前沿模型仍有优势。
问:全新的M4 Max 36-48GB开箱即用?不会自动完美。M4 Max 36GB用户报告就算跑Gemma 26B,Hermes“随机忘记已安装工具、无法报告过期token、有时根本不回答”。硬件够强但软件栈——后端bug、智能体上下文开销、工具调用边界情况——才是真正瓶颈。用MLX-LM或Ollama MLX从Qwen3.6-35B-A3B开始,验证工具调用,先降低上下文窗口再逐步提升。
总结:本地跑AI智能体,内存大小决定模型选择。后端软件选对比模型本身更重要。工具调用和显存泄漏是最大坑,避开MTP,用量化KV cache,16GB用户老老实实用9B模型。M4 Max加Qwen3.6-35B-A3B是目前社区最佳组合。搞不定先查后端配置,别急着怪硬件。有更好配置欢迎分享更新。
原文期刊: r/hermesagent
发表日期: 2026年6月21日
原文标题: Mac MLX Megathread: Hermes Agent on Apple Silicon
作者单位背景: Jonathan_Rivera (Reddit社区整理)