OpenClaw 2026.4.5
- 内置原生视频+音乐生成
- /dreaming 梦想成真了
- 结构化任务进度
- ⚡更好的提示缓存重用
- 控制界面和文档现在新增了 12 种语言。
多模态能力爆发让OpenClaw变身好莱坞导演
这次更新直接把video_generate和music_generate提升为内置工具,这个变化非常关键。之前多模态更多依赖外部流程或者插件,现在直接进入“智能体工具箱”,等于默认原生能力。
视频方面接入了xAI grok-imagine-video、Alibaba Wan、Runway等主流提供方,OpenClaw可以直接生成视频并返回媒体结果。你只需要跟OpenClaw说“给我做个猫咪跳芭蕾舞的视频”,它不仅能理解你的需求,还能真的给你生成一个毛茸茸的芭蕾舞者。
音乐生成功能的改进则展现了开发团队的细腻心思。他们决定对unsupported optional hints采取更宽容的态度,比如durationSeconds这种参数,如果provider不支持,以前是直接报错失败,现在是优雅地发出一个warning然后继续干活。
这就好比你去餐厅点菜,你说“我要一份牛排,最好能在五分钟内上桌”,服务员不会因为这个“五分钟”的要求做不到就把你赶出餐厅。Google Lyria和MiniMax两大音乐provider都会因此受益,再也不用因为一个小小的参数不支持就眼睁睁看着整个请求崩掉了。
video_generate
music_generate
ComfyUI深度整合让本地工作流登上主舞台
ComfyUI的集成不是简单接入,而是“打包成平台级能力”。新增的媒体插件支持image_generate、video_generate、music_generate,并且全部可以基于workflow驱动。
更关键的是支持prompt injection、参考图上传、实时测试和输出下载。
这意味着原本“只会写代码”的OpenClaw,现在可以操控复杂视觉生成流程,就像一个设计师一样。从架构角度看,这一步实现了“统一生成接口加本地算力利用”的组合。
云端模型和本地工作流可以用同一套调用方式,这对成本控制和定制化非常重要。
以前是“模型决定能力”,现在变成“工作流决定能力”,灵活性直接拉满。开发者可以把自己的Comfy工作流打包成标准工具,OpenClaw调用时就像调用内置函数一样简单。
而且支持live tests和output download功能,你可以实时看到生成进度,完成后还能直接下载成品。这整套流程下来,从创意到成品的距离被压缩到了前所未有的程度。
image_generate
video_generate
workflow-backed music_generate
Provider生态扩展打造多模型世界的统一入口
新增Qwen、Fireworks AI、StepFun、MiniMax、Ollama Search等provider,同时增强Amazon Bedrock,加入Mantle自动发现和IAM认证。这一部分的核心是“接入更多模型”,但真正的价值在“统一调用方式”。
以前你需要为每个模型提供商单独写一套接入代码,现在只需要配置一个provider条目,系统自动处理认证、路由、重试等复杂逻辑。尤其是Bedrock的改进非常关键,自动注入region、自动发现inference profile、自动处理认证。
这些原本需要手动配置的步骤,现在全部自动化,直接降低接入门槛。模型不再是核心壁垒,调度和编排才是。谁能更优雅地调用不同模型,谁就更强。
比如你想用Qwen处理中文任务,用Fireworks AI处理图像生成,用StepFun处理代码补全,系统可以在一个工作流里无缝切换。
Amazon Bedrock的Mantle auto-discovery更是让企业用户可以直接复用现有的AWS IAM体系,不需要额外管理API密钥,安全性和便利性兼得。
providers:
qwen:
apiKey: ${QWEN_API_KEY}
fireworks:
apiKey: ${FIREWORKS_API_KEY}
执行审批系统让OpenClaw进入可治理状态
iOS和Matrix两端都加入了exec approvals,支持通知、审批弹窗、权限范围控制、线程级处理等。
这一块看起来像是“企业功能”,但实际上是OpenClaw走向生产环境的关键。一旦OpenClaw可以执行操作,就必须有“人类兜底机制”。比如执行命令、调用工具、访问资源,都需要审批流程,否则系统风险极高。
想象一下,OpenClaw自己决定删除服务器上的文件,没有人工确认,那画面太美不敢看。
这里的实现也很讲究,通知先发,用户确认后再拉取命令详情,并且支持状态清理。这种设计避免了信息泄露,同时保证流程完整。
在iOS上,系统会推送APNs通知,点击后打开应用内的审批弹窗。
command details只有在经过认证的operator重新连接后才会获取,即使有人截获了通知也看不到具体命令内容。
Matrix平台则支持account-scoped approvers和room-thread aware resolution,审批请求可以发送到指定频道或私信,不会打乱现有对话结构。
exec approvals:
enabled: true
scope: thread
Memory dreaming系统让记忆从存储变成演化
这是整段更新里最有意思的一部分。memory dreaming引入light、deep、REM三个阶段,把记忆从“存下来”升级成“会加工”。
具体机制包括短期记忆加权提升、长期记忆筛选、REM阶段提炼“可能长期成立的事实”。
同时支持aging控制,比如recencyHalfLifeDays和maxAgeDays,决定记忆衰减速度。
还提供了工具,比如openclaw memory rem-harness和promote-explain,可以直接查看记忆是怎么被提升的。
更妙的是dreams.md作为独立存储,不默认进入上下文,这样既能记录,又避免污染当前对话。这一套下来,OpenClaw开始有点“像人”,经历事情,筛选重要内容,形成长期认知。比如你和OpenClaw聊了很多次关于编程的话题,它会逐渐提炼出你常用的编程语言、代码风格偏好,然后在下一次帮你写代码时自动适配。
dreams.md里记录的是经过提炼的insights,而原始的daily memory notes则保留完整的对话历史,两者互不干扰。
recencyHalfLifeDays: 7
maxAgeDays: 30
Prompt缓存与稳定性让性能从随机变可预测
这一部分的优化非常工程化,但影响巨大。主要包括prompt prefix重用、system prompt指纹标准化、tool顺序稳定化、缓存诊断等。
还有一个关键变化,移除agent system prompt中重复的工具描述,改用结构化tool definition作为唯一来源。这一步直接减少prompt变化,提高cache命中率。以前系统可能在多个地方重复定义了可用的工具,导致维护困难和潜在的不一致。
同时提供openclaw status --verbose来查看缓存情况,这让调优从“猜”变成“看”。
transport fallback时的cache稳定性、deterministic MCP tool ordering、compaction、embedded image history的处理、normalized system-prompt fingerprints,这些技术手段让follow-up turns更容易命中缓存。同样的请求,为什么有时快有时慢,现在答案是因为缓存命中了,而且你能通过诊断工具看到具体原因。
这对于生产环境来说价值连城,cache命中率直接决定了响应时间和成本。
openclaw status --verbose
Agents执行流升级从黑盒变可观测流水线
新增structured plan updates和execution item events,这意味着UI可以实时展示执行步骤。用户可以看到OpenClaw在做什么,而不是等结果。Claude CLI的改造也很关键,通过MCP loopback bridge接入工具,使用stdin和stream-json传输,让长任务可以实时输出。bundled runs现在改用stdin加stream-json partial-message streaming的方式,prompt不再通过argv传递,这样长回复可以实时显示进度。
这一步带来的体验变化很明显,执行过程从“等待黑箱”变成“观看直播”。你让OpenClaw帮你写一篇长篇报告,以前只能看到“正在处理中”这种模糊提示,现在可以清楚地看到它正在进行哪一步,完成了百分之多少,甚至能看到它遇到了什么困难。最终的session和usage metadata也能干净地落地,不会因为输出流的中断而丢失
。对于那些需要运行复杂多步骤任务的场景,比如数据分析、代码生成、内容创作,这种透明度的提升直接决定了可用性。
structured plan updates: true
execution item events: true
插件与运行时整合减少中间层提高效率
ACPX runtime被直接嵌入插件,去掉外部CLI调用,同时引入reply_dispatch hook,让插件可以接管回复流程。开发团队直接把ACP runtime嵌入到bundled acpx plugin中,移除了额外的external ACP CLI hop,这大大简化了架构层级。同时强化了live ACP session binding和reuse,新增了一个generic reply_dispatch hook,这样bundled plugins比如ACPX就可以接管reply interception。
Lobster插件也改为进程内运行,减少通信开销,并增强resume校验和加载缓存。bundled Lobster workflows在process中运行,而不是spawning external CLI,这减少了传输开销,而且为更深度的原生runtime集成扫清了障碍。
这些变化有一个共同目标,减少跳转路径,让执行更直接、更快、更稳定。以前像外包,现在变成自家团队,通信延迟从毫秒级降到微秒级,对于高频调用的场景提升非常明显。
reply_dispatch: true
in_process: true
控制界面与多语言让系统真正面向全球使用
控制UI新增多语言支持,包括中文、日文、德语、西班牙语等,同时Skills面板直接接入ClawHub搜索与安装。Simplified Chinese、Traditional Chinese、Brazilian Portuguese、German、Spanish、Japanese、Korean、French、Turkish、Indonesian、Polish、Ukrainian,整整十二种语言的本地化支持。这意味着无论你来自世界的哪个角落,都能用自己熟悉的语言来操控这个系统。
这不仅仅是简单的翻译工作,而是对每种语言文化背景的尊重和理解。
这一步让系统从“开发者工具”转向“平台产品”。用户可以在UI中直接发现、安装、使用能力,而不需要深入配置。一个巴西的开发者可以用Portuguese来配置他的OpenClaw,一个土耳其的创业者可以用Turkish来管理他的AI助手。技术终于开始真正地打破语言的壁垒,让全球的创新者都能平等地享受到AI带来的便利。Skills面板的搜索和安装流程也完全整合了ClawHub,你可以在同一个界面里完成从发现到安装的全过程,再也不用在不同工具之间来回切换。
languages:
- zh-CN
- ja
- de
- es
这次的配置清理工作堪称技术界的“断舍离”大师课。
开发团队决定把那些老旧的public config aliases统统移除,比如talk.voiceId、talk.apiKey这种看起来就很“上古”的配置项。还有agents.*.sandbox.perSession这种让人一看就头疼的嵌套结构,以及browser.ssrfPolicy.allowPrivateNetwork这种安全相关的配置。甚至连hooks.internal.handlers和channel或group或room的allow toggles都不放过。
这些配置项就像是你家冰箱里过期的酸奶,继续留着只会让整个系统散发出诡异的味道。
开发团队这次就是要帮你做一次彻底的冰箱大扫除,把过期食品全部扔掉,换成新鲜健康的食材。而且他们还贴心地提供了openclaw doctor --fix命令,这个命令就像是请了一个专业的家政阿姨。
你只需要坐在沙发上喝着咖啡,看着它自动帮你把旧配置迁移到新路径上就行了。
更妙的是,系统采用load-time compatibility机制,旧配置还能继续跑,但会逐步被引导到新结构。这种方式避免了“升级即崩溃”的灾难,也让企业环境可以平滑过渡,不用半夜加班修bug。
openclaw doctor --fix
总结
本次更新重构配置体系、集成视频音乐生成、深度整合ComfyUI、扩展Provider生态、加入执行审批和Memory dreaming系统,让OpenClaw从能用走向可控。