Hermes 现在允许您将多个前沿模型堆叠到一个虚拟模型中。在 Nous Research 的基准测试中,它的性能优于 Opus 4.8 和 GPT-5.5。
Hermes Agent 刚出的 MoA 功能,把 Claude Opus 4.8 和 GPT-5.5 绑成一对,自家测试里直接吊打这俩单干。但别高兴太早,这玩意儿不是白嫖的魔法——它贵得要命,还慢得让人抓狂。
这玩意儿到底是个啥
说穿了就是“三个臭皮匠顶个诸葛亮”的 AI 版。你跟它说话,它先派两三个模型去后台偷偷想一遍,然后把它们的小抄全扔给一个主模型,让主模型看完小抄再给你写最终答案。
你别看这招土,学术圈还真给它起了个正经名字叫 Mixture of Agents,2024 年 Together AI 那帮人发了篇论文,后来还上了 ICLR 2025。
Hermes Agent 把这套东西做成了个虚拟模型提供商。你在界面里选模型的时候,直接就能看到一个叫 moa 的提供商,点进去选 preset 就行,就跟选 GPT-5.5 一样简单。
yaml
moa:
default_preset: default
presets:
default:
reference_models:
- provider: openai-codex
model: gpt-5.5
- provider: openrouter
model: deepseek/deepseek-v4-pro
aggregator:
provider: openrouter
model: anthropic/claude-opus-4.8
reference_temperature: 0.6
aggregator_temperature: 0.4
max_tokens: 4096
enabled: true
上面这个是官方给的默认配置。reference_models 是干苦力的,负责先想。aggregator 是当领导的,负责看完苦力们的想法再拍板。
你觉得这个组合够变态了对吧?人家还能在终端里用命令行管理。
bash
hermes moa list
hermes moa configure review
hermes moa delete review
跑分高得离谱但你要冷静
Nous Research 自己搞了个叫 HermesBench 的测试,还没公开发布。在这个自家场地上,MoA 预设拿了 0.8202 分。
单独跑的 Claude Opus 4.8 是 0.7607,单独跑的 GPT-5.5 是 0.7412。
算一下。MoA 比 Opus 单干高了差不多 6 个点,比 GPT-5.5 单干高了 8 个点。百分比分别是 8% 和 11%。
这数字让很多人嗨了。官方 X 账号直接喊话说“最强模型都被 gate 住了,Hermes 能给你超越公开 frontier 的能力”。
但这里有几个坑你要看清楚。
第一,HermesBench 是它自家出的题自己判分。不是第三方考试。不是独立评测。官方文档自己也说了“Treat them as a preliminary, single-harness result from the people shipping the feature”,意思就是“这是我们自己测的,你先别全信”。
第二,这 8 个点的提升是怎么来的?拿 Opus 当领导,拿 GPT 当苦力。你本来就能用这俩模型,MoA 没解锁任何你本来够不着的东西。它只是把你能用到的模型重新编排了一下。
说白了,你没有因为用了 MoA 就突然能用上 Fable 5 了。你还是得为每个模型的 API 调用付钱。
你以为白嫖了更强模型其实掉进了成本陷阱
MoA 最大的杀招不在跑分上,在你钱包上。
官方文档写得挺直白:“MoA increases model-call count”。一个最简单的两模型 preset,每次回复至少三次模型调用——两个 reference 各一次,aggregator 合成一次。
更关键的是,每次对话轮次都要走一遍这个流程,不是只走一次。
有人实测跑了个轻量问题,Opus 单干花了 6.84 秒,MoA default preset 花了 40.60 秒。延迟翻了将近 6 倍。
成本呢?MoA 调用走的是 OpenRouter 的计费路径,实测下来成本大约是 Opus 单干的 80 倍。
你没看错,80 倍。
原因很简单。你在普通对话里调用 Opus,输入 token 可能就几百个。但 MoA 的 reference 模型要先把整个对话历史啃一遍,生成意见,再把意见塞给 aggregator。每次调用背后的输入 token 数量级完全不一样。
有个细节值得注意。官方设计里,reference 模型的输入是“简化版”——没有 system prompt,没有工具调用历史。这是为了省点钱,也为了保持 prompt cache 的稳定性。
但这只是减缓了成本爆炸的速度,没解决成本爆炸本身。
技术宅的良心设计但也只是良心而已
话说回来,Hermes 这帮工程师确实在工程上动了脑子。
第一,他们保住了 prompt cache。主对话的 cache 没被破坏,reference 的输出被塞在 prompt 尾巴上,不影响前面的稳定前缀。
第二,容错做得好。某个 reference 模型的凭证挂了,Hermes 不会让整个任务崩掉。它把错误信息一块儿塞给 aggregator,能跑继续跑。
第三,/moa 斜杠命令设计得挺聪明。你临时想用 MoA 处理一个棘手问题,打完命令发完 prompt,它自动切回你原来的模型。不用手动切来切去。
还有那个 enabled: false 的开关。关掉之后 aggregator 自己单干,相当于你一键把 MoA 降级成普通模型。想省钱的时侯随时切。
但这些设计解决不了根本问题——MoA 是个烧钱机器,只适合用在真正难啃的骨头上。
什么时候该用什么时候该跑
官方说法是“Use MoA when a hard task benefits from multiple model perspectives”。
翻译成人话:日常废话别用它,真正卡住的时候再掏出来。
论文里也说了,MoA 的提升在“truly hard tasks”上才明显。日常任务你花两倍以上的钱换不来任何好处。
有个判断方法值得试试。建一个两模型 preset,用 /moa 只在你觉得最棘手的那一轮对话里调用它。看看效果,看看账单。如果感受不到明显差异,说明单个便宜模型本来就能搞定,你省钱了,这本身就是个胜利。
注意,MoA 还有个隐藏风险。如果 reference 和 aggregator 都犯了同一个错误假设,MoA 不会纠正它,反而会用“多模型一致”的假象把它放大。
多模型一致不代表对。它只是多模型一致。需要严谨答案的地方,你得找外部验证机制,不能靠多模型投票。
为什么这玩意儿能在圈子里炸锅
MoA 这波能火,时间点很微妙。
2026 年 6 月 12 日,美国出口管制导致 Anthropic 的 Fable 5 和 Mythos 5 对所有客户停止服务。API 和网页端全切了,不留情面。
与此同时,Claude Opus 4.8 和 GPT-5.5 的 rate limit 越来越紧,价格越来越高。最强模型正在变成少数人的玩具。
在这个背景下,Nous Research 喊出了“最强模型被 gate 住了,但 Hermes 能让你用多模型组合超越公开 frontier”。
这句话太戳人了。它踩中了“开源能赢”的叙事,加上跑分数字确实能复现,开发者自己测完还能发帖传播,形成了一波自循环的热度。
但冷静下来看,这波热度更多是“真实功能带来的早期关注”,不是已经跑通的商业闭环。MoA 还要靠 OpenRouter 这类服务调用模型,配置门槛不低,短线炒作和实际价值之间还有距离。
结论
说破大天,MoA 就是个“把你有权限的模型打包成团队干活”的花活。
跑分确实比单干高,但那是烧钱烧出来的。单次回复三倍调用起步,延迟六倍起步,成本能飙到八十倍。你拿这些钱直接多调几次最强模型,效果可能也不差。
更关键的是,MoA 帮不了你绕过任何 gate。该有的权限你还得有,该付的钱你还得付。它只是把你的权限和钱组合了一下,用更大的消耗换取了有限的性能提升。
对普通用户来说,MoA 的真正用法不是“常驻”,而是“救命”——日常用单模型,遇到真搞不定的硬茬子再切 MoA。如果切完感觉没啥区别,恭喜你,单模型本来就是正确答案。