Hermes不适合长时间运行和后台运行,但它非常适合短时间运行的任务

Hermes 这个 AI 助手干短活贼溜,但一干长活就拉胯。一个 Reddit 老哥想让它同时搞多个代码分支,结果 session 疯狂断连、后台任务直接消失、想恢复进度?不存在的。这根本就不是模型智商的问题,是 Hermes 的后台架构压根没准备好迎接长时间任务。

开场五分钟我就想关掉浏览器跑路

事情是从一个挺美好的想法开始的。我寻思着让 Hermes 帮我干个大活,给了它一堆 ideas,然后开了好几个 profile 让它同时在不同的代码分支上开干。结果呢?翻车翻得我都没脾气了。

你可能会说是不是模型不行?我专门用了 Deepseek pro v4,这模型我自己测过写 C++ 和 Rust 的复杂逻辑都挺稳,而且价格便宜量又足。但 Hermes 翻车跟模型关系不大,因为不管我换哪个模型,问题都在那摆着。

我试了 ssh chat、网页版、桌面 app,还有第三方 webui,全都有一样的毛病。这就很能说明问题了——不是前端没做好,是后端那个叫 Hermes 的大脑自己就迷糊了。

你猜怎么着?只要我关了浏览器标签页或者关了桌面 app,它立马就停。对,就跟你写作文写到一半电脑蓝屏一样,啥都没了。

后台任务跑着跑着就人间蒸发了

Hermes 有个新功能叫 delegate background tasks,听着挺高级的对吧。但实际上这些所谓的后台任务还是绑在父 session 上的。翻译成人话就是:你拍拍屁股走人,它也拍拍屁股跟着消失了。

我去 GitHub 上翻了翻,有个 issue(#11347)专门在说这个事。不是只有我一个人遇到,大家都发现只要关闭浏览器标签或者退出桌面应用,进度就全没了。

最离谱的是后台任务直接从 UI 上消失。你想回去找都找不到,就像你出门买个菜回家发现锅里的肉不翼而飞了一样。而且如果你用了 compress 功能,Hermes 还会跟你说找不到 session ID 来恢复,场面一度非常尴尬。

社区里有个老哥说自己用 kanban 配合 Hermes 搞了个任务管理系统,还安排了看门狗 Cron 每 15 分钟检查一次任务有没有卡住。听着挺稳的对吧?但你想想看,你本来就想让 AI 帮你干活,结果你先得花好几天给它当保姆教它怎么干活。

模型好不代表后台稳

评论区里有人开始吵模型的问题了。有人说你用便宜的模型当然不行啦,得用贵的那种。我寻思着 DS4 Pro 也不便宜啊,而且我在其他场景下用它写代码完全没问题。

但重点不是这个。重点是即便你用了全世界最好的模型,Hermes 的后台该断还是断。这就好比你买了辆法拉利的发动机,但车身是纸糊的,一上高速就散架。

有哥们说他们家用的是混合方案,本地跑一个便宜的模型当小弟,遇到解决不了的问题再去问云端的贵模型当大哥。这套路听着挺合理,但前提是你得先把 Hermes 驯服了。怎么驯?改 soul.md 配置文件,加记忆系统,设好各种规矩。

还有个老哥说 Qwen 的 35B 模型在 Hermes 上跑起来容易死循环。我自己的经验是 27B 的密集模型比 35B 的 MoE 架构更稳,但 27B 吃显存啊。所以你得在模型大小、推理速度和显存占用之间来回找平衡,这本身就是个技术活。

那到底怎么才能让后台任务活着呢?有人给了个招:用 tmux 或者直接把进程放到后台跑。这确实是个办法,但你琢磨一下啊,我花钱装了个桌面 app,结果最后还是得回命令行敲命令。这不就跟买了台洗碗机然后决定还是手洗一样吗?

大家其实都在叠自己的 Buff

我翻了翻评论,发现真正能把 Hermes 用起来的那些人,他们根本就不指望 Hermes 自己有多强。他们搞了一套又一套外挂。

有人用 Kanban 来做任务编排,把一个大任务拆成一堆小任务,然后让不同的模型各干各的。有人设了 Cron 定时任务,让 Hermes 自动干活。还有人用了叫 Holographic 的记忆系统,好像是免费的。我甚至看到有人说通过 Telegram 或者 WhatsApp 跟 Hermes 聊天,因为那些平台能保持 session 一直在线。

但这些方案说到底都是权宜之计。你想想看,你要是想用 Hermes 跑一个需要 900 多轮对话的大项目,你得搞多少外挂?Kanban 要配吧?Cron 要写吧?记忆系统要装吧?可能还得开个 Telegram 机器人。

有个人提到一个关键问题:为什么我得自己想办法解决这个问题?这话说到了点子上。

一个正常好用的工具,应该是我打开就能用,而不是我先得花一个星期研究它的各种 workaround。

好消息是有些地方其实还行

说了这么多坏的,也得说说好的。Hermes 有个功能是提交后台命令然后让 LLM 去轮询状态,这个功能倒是一直很稳。我试了好多次,从来没出过问题。

但这就像什么呢?就像你买了一辆刹车油门都不太好使的车,但雨刷器特别好用。你当然可以夸它雨刷器好,但问题是你总得开车吧。

社区里有些老铁的心态还是挺好的。有人说 Hermes 就像个刚学走路的小孩,你得先教它怎么好好走,再让它跑。问题是这小孩学走路得学多久?而且每次换一个任务,是不是又得重新教一遍?

我个人觉得 Hermes 做短任务确实香,比如问个问题、改个小脚本、整理个笔记,这些它干得又快又好。但一旦你指望它帮你干那种要跑好几个小时的 coding project,那你就得做好心理准备了。

看了一圈评论下来,我觉得最搞笑的是有人跑来回复说 "Naw it works great for both if you do it well"。然后原贴老哥直接回怼:那你说说怎么做到的?对方支支吾吾说了一大堆,什么 session history 点播放按钮啊,什么用 Cron 啊,最后总结下来还是一个意思:你得自己想办法。

这让我想起一个笑话:有个人问怎么让饺子好吃,另一个人说你先得学会擀皮、剁馅、包饺子,最后煮的时候火候还得刚好。那人说:我就想问问哪个牌子的速冻饺子好吃。你直接跟我说买哪个就行了。

Hermes 现在的情况就是,大家都默认你得自己学会擀皮剁馅。我只想问一句:有没有那种打开就能吃的速冻饺子?答案是暂时没有。

总结:Hermes 是短任务神器,长任务噩梦。社区里那些能跑起来的大佬都自己叠了一堆外挂。核心问题在后台架构不在模型。好消息是有 feature request 在修了,坏消息是你现在还得继续等。