Hermes v2026.7.1更新:12天干掉将近700个bug,这不是科幻片
你可能觉得修bug没什么,但想象一下你手机里同时有700个App在崩溃,而且每个都号称“马上就好”。Hermes Agent这个开源AI项目前两天发布的v0.18.0版本,直接把所有最高优先级的漏洞清零了。注意,是所有。不是修了大半,不是修了九成,是零。这个叫“Judgment Release”的版本背后,藏着AI开发圈最近最硬核的一次集体行动。
漏洞清零这件事到底有多离谱
先说说这700个bug是什么概念。团队在12天里合进了大约1720次代码提交,关掉了998个合并请求,解决了949个issue,有370多个社区程序员参与。就这个工作量,相当于你全班同学每人每天写三篇作文连续写两周,然后老师发现居然没有一篇需要重写。
最关键的是“P0”和“P1”这两个等级。P0代表系统崩了或者核心功能用不了,属于“再不修今晚谁都别想睡”的那种。P1代表严重影响使用但还能凑合,属于“必须赶紧修但不是世界末日”。一般开源项目这两个等级的积压问题是常态,就像你书桌抽屉里永远有几支写不出的笔。Hermes这次把最后一个P1漏洞干掉的时间点,正好是发版前夜,那哥们儿熬了个通宵。
团队还放话要从现在开始保持P0和P1永远为零。这个承诺听起来挺狂,但换个角度想,如果以后每次更新都不用先花一半时间还技术债,开发速度可能会快到你反应不过来。就像你每周不用再花两小时找作业本,每天都能省出时间打游戏一样。
混合模型现在像点菜一样简单
以前你想让Hermes同时用多个AI模型干活,得去配置文件里翻半天开关。现在更新之后,每个设置好的多模型组合都直接显示在模型列表里,跟选GPT、选Claude、选Grok一样直观。你在命令行界面或者桌面应用里选一个叫“我的智囊团”的选项,就跟选其他模型的操作一模一样。
这个功能真正厉害的地方在于,你能看到每个参与讨论的模型是怎么想的。比如你问一个问题,GPT-5先给出它的推理,Claude给出它的,Grok也给出它的,每个模型的想法都单独标出来,然后才由一个汇总模型把最终答案合成出来。而且最终答案是实时流式输出的,不像以前那样你要等半天然后突然蹦出一大段。
你想想这个画面:几个AI专家在你屏幕前开会辩论,各自摆出论据,你全程围观,最后主席总结陈词。这比直接扔给你一个黑箱答案有用多了。你要是看到某个模型总在某个问题上犯傻,下次就知道别太信它。
AI现在会自己检查作业了
以前AI助手帮你写代码,写完告诉你“搞定了”,然后你跑测试,崩了。你再让它修,它又说“这次真好了”,再跑,又崩。这个循环比你妈催你写作业还要让人崩溃。
新版本里,Hermes能自己跑你项目的检查工具来判断事情是不是真的做完了。你在提需求的时候可以附带一个“完成标准”,比如“所有测试用例通过”或者“服务器能正常启动”。然后AI在执行任务的过程中会持续用这些标准来核对进度,最后告诉你“我验证过了,确实完成了”,而不是“我觉得应该好了”。
这相当于把“老师说讲完了”和“你确实听懂了”之间的差距给填上了。以前你总得给AI当监工,现在它能自己给自己当质检员。这个变化在UI上一点都不花哨,但属于那种让AI真正靠得住的底层设计。
学新技能就像拍照一样简单
新命令/learn可能是这次最容易被低估的功能。你只需要输入/learn 某个文件夹或者/learn 某个网页链接,甚至你把一个操作流程演示给它看,Hermes就能自动把那些内容提炼成一个可复用的技能模块,并且按照项目的规范格式保存好。
以前你要给AI添加新技能,得手动打开一个Markdown模板文件,按照格式填写说明、参数、示例,跟填那种又长又烦的申请表差不多。现在你直接带它走一遍流程,它自己就记下来了。这就像你教新同学怎么在校门口找到最好吃的煎饼摊,以前得画地图写攻略,现在直接带他去买一趟就行。
当然这个功能效果怎么样还得看实际测试,比如遇到奇葩边缘情况它生成的技能能不能直接用。但方向是对的——让AI从你的操作中学习,而不是让你去学习AI的配置语法。
记忆再也不是黑箱子了
命令行和终端界面里新增了/journey命令,能调出一个时间线视图,显示Hermes积累的所有关于你的信息——记住的事情、学到的技能、你的偏好设置。你可以直接在界面上编辑或者删除某条记录。
桌面应用更夸张,做了一个可以交互的径向记忆图谱,所有记忆节点连成一张网,你可以点击拖动查看。以前你根本不知道AI到底记了你哪些事,现在全摊开在你面前,你想删哪条就删哪条。
这个功能对于长期使用的场景特别关键。比如你跟AI合作了几个月,它可能从某个对话里错误地推断你喜欢用某种代码风格,然后一直按那个风格写。有了这个记忆面板,你发现不对劲直接删掉那条错误记忆就行,不用跟AI解释半天“我不是那个意思”。
后台同时跑好几个任务不卡你
delegate_task这个命令现在支持同时派出多个子代理在后台干活。比如你输入“同时调研五个竞品的技术方案”,然后你可以继续做自己的事,那几个子代理各自去查资料,等它们都完成了,结果会合并成一个完整的回复交到你手上。
这意味着你不用干等着AI一个一个查完再查下一个。就像你点外卖、洗衣服、扫地可以同时进行,而不是非得一巴掌拍死苍蝇再吃饭那么死板。
其他值得提的小改进
桌面应用的编码项目功能现在有了项目侧边栏、代码库浏览窗、审查面板,还有git工作树管理,真正开始像个开发驾驶舱了。网关服务现在支持缩放到零和排干协调,意思是你跑服务的时候没人用就自动休眠省资源,有人请求再唤醒,重启前能干净地处理完当前对话不会丢消息。自我改进的那个审查环节现在走的是辅助模型,不占用主模型的计算资源,省钱多了。/prompt命令直接打开你的文本编辑器,让你用真正的Markdown写长提示词,不用在命令行里跟那一行输入框搏斗。还有Vertex AI现在是一等公民,自动从谷歌云服务账号刷新令牌,不会再出现跑一半突然过期让你重新认证的事。
安全方面做了凭据泄露防护和跨服务输入的清洗。数字方面,自v0.17.0以来12天内1720次提交,998个合并请求被合入,949个issue关闭,370多个社区贡献者,项目星星数到了20万7千。
这次发布到底意味着什么
这次更新给人的感觉是整个项目从“跑得快”转向了“站得稳”。漏洞清零不只是摆个姿态,它说明这个项目有足够的贡献者人力和组织纪律性来维持一个干净的状态。多模型组合变成一等模型、自我验证机制、后台并发任务——这些都是让AI能真正干活而不用你时刻盯着的东西。学习命令和记忆时间线则让它变得更透明、更可定制。
如果说上个版本是给界面涂了层漂亮的油漆,那这个版本就是在打地基和修水管。看起来不炫,但你住进去就知道差别了。
旧的困境是AI总说“我好了”但你不敢信。新的可能是有个东西说“我好了,而且我验证过三次,要不你看看证据”。这感觉差别还挺大的。