AI端侧应用、氛围编程

Hermes MoA堆叠多个前沿模型：性能优于Opus 4.8和GPT-5.5

#Hermes #AI智能体Agent #OpenClaw

2026-06-29 1 5K banq

Hermes把几个大模型摞在一起用，跑分能比最强单个模型高出一大截。

Hermes 现在允许您将多个前沿模型堆叠到一个虚拟模型中。在 Nous Research 的基准测试中，它的性能优于 Opus 4.8 和 GPT-5.5。

Hermes Agent 刚出的 MoA 功能，把 Claude Opus 4.8 和 GPT-5.5 绑成一对，自家测试里直接吊打这俩单干。但别高兴太早，这玩意儿不是白嫖的魔法——它贵得要命，还慢得让人抓狂。

这玩意儿到底是个啥

说穿了就是“三个臭皮匠顶个诸葛亮”的 AI 版。你跟它说话，它先派两三个模型去后台偷偷想一遍，然后把它们的小抄全扔给一个主模型，让主模型看完小抄再给你写最终答案。

你别看这招土，学术圈还真给它起了个正经名字叫 Mixture of Agents，2024 年 Together AI 那帮人发了篇论文，后来还上了 ICLR 2025。

Hermes Agent 把这套东西做成了个虚拟模型提供商。你在界面里选模型的时候，直接就能看到一个叫 moa 的提供商，点进去选 preset 就行，就跟选 GPT-5.5 一样简单。

yaml
moa:
  default_preset: default
  presets:
    default:
      reference_models:
        - provider: openai-codex
          model: gpt-5.5
        - provider: openrouter
          model: deepseek/deepseek-v4-pro
      aggregator:
        provider: openrouter
        model: anthropic/claude-opus-4.8
      reference_temperature: 0.6
      aggregator_temperature: 0.4
      max_tokens: 4096
      enabled: true

上面这个是官方给的默认配置。reference_models 是干苦力的，负责先想。aggregator 是当领导的，负责看完苦力们的想法再拍板。

你觉得这个组合够变态了对吧？人家还能在终端里用命令行管理。

bash
hermes moa list
hermes moa configure review
hermes moa delete review

跑分高得离谱但你要冷静

Nous Research 自己搞了个叫 HermesBench 的测试，还没公开发布。在这个自家场地上，MoA 预设拿了 0.8202 分。

单独跑的 Claude Opus 4.8 是 0.7607，单独跑的 GPT-5.5 是 0.7412。

算一下。MoA 比 Opus 单干高了差不多 6 个点，比 GPT-5.5 单干高了 8 个点。百分比分别是 8% 和 11%。

这数字让很多人嗨了。官方 X 账号直接喊话说“最强模型都被 gate 住了，Hermes 能给你超越公开 frontier 的能力”。

但这里有几个坑你要看清楚。

第一，HermesBench 是它自家出的题自己判分。不是第三方考试。不是独立评测。官方文档自己也说了“Treat them as a preliminary, single-harness result from the people shipping the feature”，意思就是“这是我们自己测的，你先别全信”。

第二，这 8 个点的提升是怎么来的？拿 Opus 当领导，拿 GPT 当苦力。你本来就能用这俩模型，MoA 没解锁任何你本来够不着的东西。它只是把你能用到的模型重新编排了一下。

说白了，你没有因为用了 MoA 就突然能用上 Fable 5 了。你还是得为每个模型的 API 调用付钱。

你以为白嫖了更强模型其实掉进了成本陷阱

MoA 最大的杀招不在跑分上，在你钱包上。

官方文档写得挺直白：“MoA increases model-call count”。一个最简单的两模型 preset，每次回复至少三次模型调用——两个 reference 各一次，aggregator 合成一次。

更关键的是，每次对话轮次都要走一遍这个流程，不是只走一次。

有人实测跑了个轻量问题，Opus 单干花了 6.84 秒，MoA default preset 花了 40.60 秒。延迟翻了将近 6 倍。

成本呢？MoA 调用走的是 OpenRouter 的计费路径，实测下来成本大约是 Opus 单干的 80 倍。

你没看错，80 倍。

原因很简单。你在普通对话里调用 Opus，输入 token 可能就几百个。但 MoA 的 reference 模型要先把整个对话历史啃一遍，生成意见，再把意见塞给 aggregator。每次调用背后的输入 token 数量级完全不一样。

有个细节值得注意。官方设计里，reference 模型的输入是“简化版”——没有 system prompt，没有工具调用历史。这是为了省点钱，也为了保持 prompt cache 的稳定性。

但这只是减缓了成本爆炸的速度，没解决成本爆炸本身。

技术宅的良心设计但也只是良心而已

话说回来，Hermes 这帮工程师确实在工程上动了脑子。

第一，他们保住了 prompt cache。主对话的 cache 没被破坏，reference 的输出被塞在 prompt 尾巴上，不影响前面的稳定前缀。

第二，容错做得好。某个 reference 模型的凭证挂了，Hermes 不会让整个任务崩掉。它把错误信息一块儿塞给 aggregator，能跑继续跑。

第三，/moa 斜杠命令设计得挺聪明。你临时想用 MoA 处理一个棘手问题，打完命令发完 prompt，它自动切回你原来的模型。不用手动切来切去。

还有那个 enabled: false 的开关。关掉之后 aggregator 自己单干，相当于你一键把 MoA 降级成普通模型。想省钱的时侯随时切。

但这些设计解决不了根本问题——MoA 是个烧钱机器，只适合用在真正难啃的骨头上。

什么时候该用什么时候该跑

官方说法是“Use MoA when a hard task benefits from multiple model perspectives”。

翻译成人话：日常废话别用它，真正卡住的时候再掏出来。

论文里也说了，MoA 的提升在“truly hard tasks”上才明显。日常任务你花两倍以上的钱换不来任何好处。

有个判断方法值得试试。建一个两模型 preset，用 /moa 只在你觉得最棘手的那一轮对话里调用它。看看效果，看看账单。如果感受不到明显差异，说明单个便宜模型本来就能搞定，你省钱了，这本身就是个胜利。

注意，MoA 还有个隐藏风险。如果 reference 和 aggregator 都犯了同一个错误假设，MoA 不会纠正它，反而会用“多模型一致”的假象把它放大。

多模型一致不代表对。它只是多模型一致。需要严谨答案的地方，你得找外部验证机制，不能靠多模型投票。

为什么这玩意儿能在圈子里炸锅

MoA 这波能火，时间点很微妙。

2026 年 6 月 12 日，美国出口管制导致 Anthropic 的 Fable 5 和 Mythos 5 对所有客户停止服务。API 和网页端全切了，不留情面。

与此同时，Claude Opus 4.8 和 GPT-5.5 的 rate limit 越来越紧，价格越来越高。最强模型正在变成少数人的玩具。

在这个背景下，Nous Research 喊出了“最强模型被 gate 住了，但 Hermes 能让你用多模型组合超越公开 frontier”。

这句话太戳人了。它踩中了“开源能赢”的叙事，加上跑分数字确实能复现，开发者自己测完还能发帖传播，形成了一波自循环的热度。

但冷静下来看，这波热度更多是“真实功能带来的早期关注”，不是已经跑通的商业闭环。MoA 还要靠 OpenRouter 这类服务调用模型，配置门槛不低，短线炒作和实际价值之间还有距离。

结论

说破大天，MoA 就是个“把你有权限的模型打包成团队干活”的花活。

跑分确实比单干高，但那是烧钱烧出来的。单次回复三倍调用起步，延迟六倍起步，成本能飙到八十倍。你拿这些钱直接多调几次最强模型，效果可能也不差。

更关键的是，MoA 帮不了你绕过任何 gate。该有的权限你还得有，该付的钱你还得付。它只是把你的权限和钱组合了一下，用更大的消耗换取了有限的性能提升。

对普通用户来说，MoA 的真正用法不是“常驻”，而是“救命”——日常用单模型，遇到真搞不定的硬茬子再切 MoA。如果切完感觉没啥区别，恭喜你，单模型本来就是正确答案。