OpenClaw v2026.4.12 质量更新:插件加载、主动记忆插件与梦境功能全面升级


OpenClaw 2026.4.12发布,新增Active Memory自动上下文插件、macOS MLX本地语音、LM Studio本地模型支持,重构插件加载机制,简化飞书配置,全面提升内存、梦境功能可靠性与本地AI能力。

OpenClaw 在2026年4月12日发布了一大波质量更新。这次更新主要干了四件大事:把插件加载机制从“啥都往里塞”改成“你要啥我给你啥”,把记忆功能从“你让我记我才记”升级成“我提前替你翻旧账”,把本地模型和语音能力从“靠云施舍”变成“自己长脑子”,还把飞书的配置流程从“折磨人”简化成“像个人”。

插件加载机制从自助餐变成点菜模式

过去OpenClaw加载插件的方式特别像过年去自助餐厅。你一进门,服务员把所有菜都堆你桌上,不管你想不想吃,不管你能不能吃完,更不管这里面有没有你过敏的东西。结果就是盘子堆成山,你吃不完浪费,厨房累到崩溃,关键是那些你根本不会碰的菜还占着你的桌子,你连放自己碗的地方都没有。

这次更新干了一件特别狠的事:系统只加载那些在manifest文件里明确声明自己需要的插件。每个插件在进门之前必须交一份“我要干什么”的说明书。它得写清楚自己要在哪个阶段工作,要动用哪些权限,要访问哪些资源。系统看完这份说明书,只在需要它的那个时间点才把它请进来。

这直接解决了三个老大难问题。第一个是资源浪费,以前系统启动时要加载几十个插件,每个都占内存、占CPU、占启动时间,现在只加载真正要用的那几个,启动速度直接起飞。第二个是权限边界模糊,以前一个插件能偷偷摸摸看其他插件的数据,现在每个插件的活动范围被严格限制在自己的声明里,越界就报错。第三个是安全问题,恶意插件想搞破坏得先骗过manifest声明,这等于给每个插件戴上了电子脚镣。

更狠的是,这个“按需加载”的规则不只针对插件,连CLI、provider、channel的激活也被纳入了同一个体系。整个运行环境开始走极简主义路线,不用的功能绝不加载,用完了立刻卸载。这一步很多AI Agent系统迟早得走,不然规模一大就会变成一锅粥,谁都理不清谁在干什么。

主动记忆机制让AI学会在你开口前翻旧账

这次更新里最有个性的改动就是这个Active Memory插件。它不是那种你喊一句“记住这个”它才慢吞吞记下来的老古董,而是一个会在你说话之前主动出击的记忆子代理。

这个子代理的工作流程是这样的:你发出一条消息,系统没有立刻生成回复,而是先启动这个记忆子代理。它会扫描当前对话的上下文,翻看你们之前聊过的所有历史记录,提取你曾经透露过的偏好信息,然后自己判断哪些内容对当前对话有帮助,再把那些内容悄悄塞进当前对话的上下文里。

这个设计彻底改变了你和AI的交互方式。过去你要说“帮我查一下之前我们聊过的那个项目”,或者“你还记得我上次说我不喜欢吃香菜吗”,现在系统会在你开口之前就自动把这些信息拉进来。它开始替你多想一步,这一步如果做得好,体验会非常丝滑,就像你身边有个特别懂你的秘书,你还没张嘴他就知道你要什么。

但是这个功能如果做得差,就会变成AI乱翻旧账的灾难现场。比如你昨天说想学编程,今天只是想问今天天气怎么样,结果它翻出昨天的记录开始给你推荐Python课程,你就会觉得这个AI是不是脑子有病。

为了解决这个问题,Active Memory插件提供了多种模式让你自己调节。消息模式只扫描最近几条消息,近期上下文模式扫描最近一轮对话,完整上下文模式翻遍所有历史记录。还有一个verbose检查功能,能让你看到它到底翻了哪些旧账,以及一个prompt override功能,让你可以手动告诉它“这次别翻那些陈年烂谷子的事”。

这些东西听起来很技术,其实本质就是给你一个调节旋钮。你把这个旋钮拧到轻度参与,它就像个安静的小秘书,只在关键时刻提醒你一句。你把它拧到重度干预,它就像个八卦同事,动不动就提你三个月前说过的那句话。调得好,它是你的私人助理;调不好,它就是那个总在你新朋友面前说你黑历史的老同学。

另外还有一个关键改动:QMD recall现在默认走搜索路径。以前记忆命中率特别不稳定,就像抽奖一样,有时候它记得你三天前说过的话,有时候你刚说完它就忘了。现在的策略是搜索优先,系统会主动去记忆库里搜索相关内容,再加上更清晰的遥测数据,你终于能知道它到底是怎么找到那段记忆的,不再是黑盒抽奖了。

本地模型与语音能力让AI开始长在你电脑里

这次更新明显在强化本地优先的路线。新增了LM Studio provider和MLX本地语音模型支持。说人话就是:AI不再完全依赖云端,它开始在你自己的设备上长脑子了。

LM Studio的加入意味着你可以用本地或者自己托管的OpenAI兼容模型。这些模型跑在你自己的电脑上或者你自己公司的服务器里,数据不用传到任何第三方服务器,调用也不用花一分钱API费用。这对于企业和重度用户来说意义巨大,因为隐私问题和成本问题一次性解决了。

而且LM Studio支持runtime model discovery,系统会自动发现你本地装了哪些模型,不用你手动配置。还支持memory-search embeddings,记忆搜索的向量嵌入也在本地完成,数据全程不出你的设备。

语音这块更有意思。MLX speech provider加入了Talk Mode,支持本地播放、打断处理和系统语音fallback。这个体验如果打磨得好,会非常接近真人对话。

重点在于打断处理,这是语音交互里最难做的部分之一。你想啊,你跟真人说话的时候,随时可以打断对方说“等一下,我不是这个意思”。但是跟AI说话,以前的实现方式是你一打断它就懵了,要么继续播放原来的音频,要么直接卡死。现在OpenClaw实现了真正的打断处理,你说话的时候它立刻停止播放,开始听你新的指令,这涉及实时流控制,技术难度很高。

还有一个细节很关键:allowPrivateNetwork配置。这个配置等于给“自己搭的模型服务”开了绿灯,允许系统访问你内网里的模型服务。但是又严格限制在request surface内,不会让整个系统都能随便访问你的内网。这种设计既开放又克制,不会一不小心把系统安全搞崩。

执行与网关机制让AI更像一个能干活的操作系统

exec-policy命令的加入,让工具调用不再是黑箱操作。你现在可以用show、preset、set这三个子命令,查看当前执行策略、加载预设配置、甚至同步本地的审批文件。

这一步的意义非常现实。当AI开始能调用系统工具、执行代码、甚至操作外部资源的时候,如果没有一个清晰的执行策略,那就是一场灾难。想象一下,一个AI能删文件、能发邮件、能调用API,但是没有任何人批准它该不该做这些事,那它就像个拿着核弹发射按钮的三岁小孩。

现在这个exec-policy机制就像一个权限中控台。你可以精细控制AI能干什么、不能干什么。比如你可以设置它执行任何shell命令之前都需要你手动批准,或者只允许它在特定目录下操作文件,或者限制它每天只能发三封邮件。

Gateway也做了结构拆分,把startup和runtime分离。听起来很工程化,其实核心是让生命周期更清晰。系统启动、运行、重载、关闭这些阶段变得可控了,维护成本也会大幅下降。以前你想重启Gateway,可能关不掉、可能起不来、可能重载了一半卡住,现在每个阶段都有明确的状态和退出路径。

commands.list RPC也值得一提。它让客户端可以动态发现当前系统支持哪些命令。这相当于给AI系统加了一个自我说明书,任何接入的客户端都能问一句“你现在会干什么”,然后系统返回一个完整的命令列表,包括原生命令、文本命令、技能命令和插件命令。这是走向平台化的必要一步,因为你不可能让每个客户端都硬编码一套命令列表。

QA与测试体系从能跑变成敢上线

QA这次更新非常激进,直接引入multipass VM测试。也就是在一次性Linux虚拟机里跑完整测试流程。这个思路很简单:把测试环境做成一次性消耗品,跑完就丢,避免环境污染。

以前做测试最头疼的问题就是测试环境被污染。你跑完一个测试,系统里留下了各种临时文件、环境变量、配置文件,下一个测试跑起来就可能被这些东西影响。现在每次测试都开一个全新的虚拟机,跑完直接销毁,下一个测试又是一个全新的环境,干干净净。

Telegram QA lane也很有意思。它支持私有群组里的机器人对机器人测试,还保留了原生threading。这种设计明显是为了验证真实场景,而不是实验室里造假数据。你可以把它理解成让AI在野外打架,两个机器人在真实的Telegram群里互相发消息、互相回复、互相调用命令,QA系统在旁边看着它们打,记录谁打赢了、谁打输了、谁出bug了。

Convex-backed credential leasing更偏基础设施,但意义很大。它解决了测试账号管理的问题。以前跑QA需要有人手动分配测试账号,账号用完了还得手动回收,效率极低。现在系统自动从Convex租赁账号,用完自动归还,QA流程可以全自动化运转。

这些改动共同指向一个目标:让OpenClaw不只是能跑demo,而是能稳定运行在复杂环境中。以前你敢不敢上线全靠运气,现在你敢不敢上线全靠测试报告。

控制界面与梦境机制从混乱状态变成可解释状态

Control UI和Dreaming系统的优化,看起来是体验问题,其实是认知问题。Scene和Diary被简化了,未知phase状态被保留了,waiting-entry排序变得稳定了。

这解决的是系统状态不可理解的问题。以前你打开Dreaming界面,看到一堆乱七八糟的状态,完全搞不清楚AI现在在干嘛。它是在做梦?还是在回忆?还是在发呆?你完全不知道。现在至少你能看清它在干嘛,顺序也不会乱跳,每个状态都有明确的标识。

这种确定性对于调试和信任感都很关键。你调试的时候能知道系统现在卡在哪一步,你信任的时候能知道系统没有在偷偷干坏事。就像你的手机告诉你“正在下载更新 45%”,你虽然不懂技术细节,但你知道它在工作,你知道还要等多久。

Matrix的partial streaming也加入了live markers,实现了打字机效果。你看到消息一个字一个字蹦出来,虽然本质只是渲染优化,但心理体验差别很大。你会觉得AI在思考,在组织语言,在认真对待你的问题,而不是一下子甩给你一大段冷冰冰的文字。

文档与国际化从能看懂到不容易误解

Docs i18n这次做了很多防御性设计。比如拒绝截断输出,以前的翻译流程可能把长文档截断成两半,中间丢了一段,你看到的就是残缺的内容。现在系统检测到截断就拒绝输出,宁可让你等也不要给你看错的内容。

还避免了wrapper误解。以前文档里有些标记符号可能被翻译流程误认为是格式标记,结果翻译完格式全乱了。现在系统能正确区分哪些是要翻译的内容,哪些是格式标记。

还恢复了中断翻译会话。以前翻译到一半断网了,整个翻译进度就丢了,你得从头开始。现在系统能记住你翻译到哪里了,断网重连之后接着翻。

provider文档也补充了更多能力说明和环境变量配置。这对开发者非常关键。很多系统死在不会用,不是不能用。你功能再强,别人不知道怎么配置、不知道怎么调用,那就是摆设。

memory-wiki文档增加了QMD加桥接模式的混合配置方案。这其实是在告诉你:记忆系统要混合使用,不要迷信单一方案。有的场景适合用QMD,有的场景适合用桥接模式,两个结合起来才是最优解。这种经验总结,比功能本身更值钱。

模型体系整合让Codex与OpenAI路径开始分叉

Codex provider被打包进来,而且有独立的app-server harness。这意味着codex/gpt开头的模型和openai/gpt开头的模型走两条完全不同的路径。

前者用Codex管理认证、线程和模型发现。Codex有自己的认证体系,有自己的线程管理方式,有自己的模型发现机制。后者保持OpenAI原有的方式,用OpenAI的API key,用OpenAI的线程模型,用OpenAI的模型列表。

这一步很关键,因为它明确了不同模型生态要分开管理。Codex生态和OpenAI生态虽然都叫GPT,但底层实现完全不同,混在一起只会越来越乱。现在的设计相当于给每个生态一个独立跑道,互不干扰。

从长期看,这种结构更容易扩展。以后要接入Anthropic的Claude,可以单独加一个anthropic provider。要接入Google的Gemini,可以单独加一个gemini provider。每个provider独立管理自己的认证、线程、模型发现,互不干扰,互不依赖。