这次 OpenClaw 2026.4.24 的核心价值,就是把“能听懂你说话的AI”,升级成“能接电话、能开会、能自己动手干活、还能在出错时自己爬起来继续干”的一整套自动化打工人系统。
它做的事情很直接:语音打通 → 模型升级 → 浏览器更像人 → 插件更稳更轻 → 出问题能自己修。
DeepSeek V4两兄弟加入模型大家庭
模型这块这次来了两个狠角色,DeepSeek V4 Flash和DeepSeek V4 Pro。这俩兄弟一个主打快,一个主打强,分工明确,搭配起来干活特别舒服。DeepSeek V4 Flash被设成了新用户注册时的默认模型,说明开发团队对它的稳定性和响应速度很有信心,想让新玩家一上来就能体验到丝滑的交互。
DeepSeek V4 Flash的定位很明确,就是快。它的响应延迟低,处理常规任务得心应手,适合那些需要即时反馈的场景,比如日常问答、简单指令执行、快速信息检索。你可以把它想象成班里的学霸,你问什么它都能秒答,虽然遇到超级难题可能得想想,但日常作业绝对不在话下。把它设成默认模型,新用户第一次用OpenClaw就不会因为等待太久而劝退,这个策略很接地气。
DeepSeek V4 Pro则是专业选手,处理复杂推理、长文本理解、多步骤任务规划时表现更稳。如果你要让它写一份详细的技术方案、分析一堆数据报表、或者进行深度的代码审查,Pro版本会更靠谱。Flash和Pro的组合,有点像手机拍照里的普通模式和专业模式,日常随手拍用普通模式,要出大片切到专业模式,各取所需。
这次更新还顺手修了一个关于DeepSeek思考过程和重放行为的bug。之前在某些场景下,特别是多轮对话里涉及到工具调用的后续环节,DeepSeek的思考链路会断掉,导致回答质量下降,或者重复之前已经做过的事情。现在这个问题被修复了,意味着你在跟DeepSeek V4聊天时,即使对话进行了很多轮,中间还穿插了各种工具调用,它依然能保持清晰的思路,不会突然失忆或者犯迷糊。这个修复对于需要长时间、多步骤协作的任务来说,体验提升非常明显。
小结:模型体系让思考与执行分工清晰。
这次引入了 DeepSeek V4 Flash 和 DeepSeek V4 Pro。两者的分工非常明确,Flash负责高效执行,Pro负责复杂推理。
Flash被设为默认模型,因为它速度快、成本低、稳定性高,适合大多数任务。日常任务交给它处理,可以保证效率。
Pro模型更强,适合复杂任务,比如多步骤推理、长文本分析、复杂决策。系统会在需要的时候调用它,让整体能力上限更高。
还有一个重要修复点是多轮工具调用时的逻辑连续性。以前AI在执行多步任务时容易丢失上下文,现在这个问题被修复后,系统可以持续执行复杂流程,不会做一步忘一步。
这个改动让任务执行从“分段完成”变成“连续推进”。这一步非常关键。
语音通话终于能找完整智能体帮忙了
以前用OpenClaw打电话,感觉就像跟一个只会背台词的机器人聊天,问点复杂的问题就卡壳,想让它帮你查个资料、调个设置,简直比让猫学会开门还难。这次更新彻底把这个问题给解决了,语音通话现在能直接对接完整的OpenClaw智能体,也就是说,你打电话的时候,背后站着一个全副武装的智能助手,能调用工具、查数据、执行操作,跟你用文字聊天时的体验一模一样。
这个改动到底牛在哪呢?打个比方,以前语音通话就像你打电话给前台,前台只能帮你转接,具体事情还得你自己去办。现在呢,前台直接升级成了你的私人助理,你电话里说"帮我查查最近的项目进度,顺便把今天的会议纪要整理一下",它就能真的去查数据库、调文件、生成报告,然后口头汇报给你。Talk功能、Voice Call功能,还有新加入的Google Meet,这三个渠道现在都支持这种实时语音循环,背后的智能体全程在线,随时待命。
实现这个效果的技术逻辑其实挺有意思的。传统的语音交互往往是先语音识别,然后把文字丢给AI,AI生成文字回复,再语音合成读出来。这个链条里,AI的能力是被阉割过的,很多工具调用、深度推理的能力在语音场景下用不出来。这次OpenClaw把完整的智能体能力塞进了语音循环里,意味着语音输入进来之后,智能体可以进行多轮思考、调用各种工具、甚至和其他系统交互,最后把结果用自然语言组织好,通过语音播报回去。整个过程对用户来说就是一个流畅的对话,但背后其实跑了一整套复杂的工作流。
对于经常需要远程协作的团队来说,这个功能简直是救星。想象一下,你正在开车,突然想起来要确认一个技术方案的细节,直接语音拨通OpenClaw,让它帮你调取相关文档、对比几个版本的差异、甚至直接帮你起草一封邮件,全程不用动手。或者你在开会,通过Google Meet接入,OpenClaw作为参会者实时记录、提炼要点、甚至在你提问时给出数据支撑。这种体验,以前的语音助手想都不敢想。
小结:这次语音升级的本质变化在于,语音不再只是输入方式,而是直接进入整个Agent系统。你说话的时候,系统一边听,一边分析,一边决定下一步动作。
你说一句“帮我查这个公司,再整理重点发给我”,系统内部会自动拆成多个步骤:先理解需求,再决定调用哪些工具,再去执行,再整理输出。你不需要再手动一步一步指挥。
这种模式让交互变得更接近真实助理。你不需要讲操作流程,只需要表达目的。系统负责把目的变成行动,这一步让使用门槛明显下降。
语音还支持实时循环处理。你在说话的时候,它已经在干活。整个过程是连续的,不需要你停下来等它处理完再继续说。这种体验更接近电话沟通,而不是传统对话框。
Google Meet正式成为内置参会插件
Google Meet的加入是这次更新的一大亮点,它不是简单的一个连接,而是作为一个完整的内置插件被集成进来的。这个插件支持个人Google账号认证,用的是Chrome浏览器和Twilio的实时会话技术,还支持配对节点Chrome模式,功能相当完整。
个人Google账号认证意味着你不用去折腾企业级OAuth那些复杂配置,直接用你自己的Google账号就能授权OpenClaw接入Meet。这对个人用户和小团队特别友好,降低了使用门槛。Chrome和Twilio的实时会话技术保证了音视频传输的稳定性和低延迟,开会的时候不会出现声音卡顿、画面冻结的尴尬情况。
配对节点Chrome支持是一个挺有意思的功能。简单来说,就是OpenClaw可以在一个专门的Chrome实例里运行,这个实例和你的主浏览器是分开的,互不干扰。这样做的好处是,即使你的主浏览器开了几十个标签页卡得要死,OpenClaw的Meet参会者依然能稳定运行,不会被你的浏览习惯拖累。而且,万一Meet页面出了什么问题,OpenClaw有自己的恢复机制,能自动处理已经打开的Meet标签页,不用你手动去重启或者重新加入会议。
这个插件还提供了会议记录和出席情况的导出功能。开完会之后,你可以让OpenClaw把会议内容整理成文档,参会人员列表也能导出来,方便后续跟进。对于需要留痕的正式会议,这个功能省去了大量手动整理的时间。恢复工具的存在也让整个系统更鲁棒,不会因为Meet页面意外关闭就掉链子。
小结:通话与会议能力进入真实工作场景
系统现在支持 Talk、Voice Call,还有 Google Meet 会议接入。重点在于它能在通话过程中持续调用工具,而不是单纯对话。
你在通话中说的每一句话,系统都可以用来驱动任务执行。它可以边听边查数据,边整理信息,边准备输出结果。这种能力让语音真正变成生产力工具。
Google Meet 的接入让事情更进一步。系统可以用你的个人账号进入会议,还能处理已经打开的会议页面。这意味着它可以直接参与真实会议场景。
在会议中,它可以记录发言内容,整理会议纪要,导出参与记录。如果中途网络断了,它还能恢复继续。这种能力让它像一个全天候在线的会议助理。
浏览器自动化能力全面升级
浏览器自动化这次拿到了好几个实用的新能力,每一个都是实打实能解决痛点的东西。坐标点击、更长的默认操作预算、按配置文件覆盖无头模式设置、更稳定的标签页复用和恢复,这四项改进组合起来,让OpenClaw操控浏览器的能力上了一个大台阶。
坐标点击这个功能听起来简单,实际上解决了一个老大难问题。以前浏览器自动化点击元素,靠的是选择器定位,比如CSS选择器、XPath之类的。这种方式在页面结构稳定的时候没问题,但一旦页面改版、元素ID变了、或者遇到动态加载的内容,选择器就失效了,自动化脚本直接报错。坐标点击则是直接告诉浏览器"在屏幕的哪个位置点一下",绕过了元素定位的依赖。当然,坐标点击也有它的局限性,比如页面缩放、分辨率变化时坐标会偏移,但作为一种补充手段,它在处理那些难以用选择器定位的元素时,提供了一个可靠的备选方案。
更长的默认操作预算意味着浏览器自动化任务可以执行更多的步骤。以前可能默认只允许做几十步操作,复杂一点的任务还没跑完就被掐断了。现在预算增加了,那些需要多页面跳转、大量表单填写、复杂数据抓取的任务,终于有了足够的空间跑完全程。对于需要自动化处理复杂网页流程的用户来说,这个改动直接扩大了可用场景的范围。
按配置文件覆盖无头模式设置是一个灵活性改进。无头模式就是浏览器在后台运行,不显示界面窗口,适合服务器环境或者不需要人工干预的场景。但有时候你想看看浏览器到底在干什么,调试一下自动化流程,就需要有头模式。现在你可以针对不同的配置文件单独设置是否启用无头模式,不用全局一刀切。比如生产环境用无头模式省资源,调试环境开有头模式方便观察,切换起来很顺手。
标签页复用和恢复的稳定性提升,解决的是自动化流程中断后如何续跑的问题。以前如果浏览器标签页意外关闭或者页面崩溃,整个自动化任务可能就废了,得从头再来。现在OpenClaw能更稳健地复用已有的标签页,遇到问题时也有更好的恢复机制,尽量让任务从中断的地方继续,而不是推倒重来。这对于运行时间长的自动化任务来说,能节省大量时间和计算资源。
小结:浏览器操作更接近真人行为。
浏览器自动化这次做了几项关键升级,让执行能力更稳定。
- 加入了坐标点击功能,这意味着即使找不到页面元素,系统也可以直接点击某个位置。这个能力让它更像人在操作电脑,而不是依赖代码结构。
- 行动预算增加,系统可以执行更长的操作流程。以前任务可能做到一半被限制,现在可以一口气完成完整流程,比如登录、跳转、填写、提交、下载。
- 浏览器的稳定性也提升了。标签页可以复用,状态可以保持,出错可以恢复。这些能力叠加起来,让任务执行更加连续。
插件和模型基础设施瘦身提速
启动速度和资源占用一直是大型平台的老大难问题,OpenClaw这次在插件和模型基础设施层面做了不少优化,目标是让系统启动更快、运行更轻。具体措施包括静态模型目录、基于清单的模型行、延迟加载提供程序依赖、以及外部运行时依赖修复。
静态模型目录的意思是,模型列表不再每次启动都去动态生成或者从远程拉取,而是用一个预先定义好的静态文件。启动的时候直接读这个文件,省去了动态构建目录的时间和网络请求。对于模型数量多的场景,这个优化能明显缩短启动等待时间。
基于清单的模型行是对模型信息展示方式的改进。以前模型列表的每一行可能包含大量动态计算的信息,现在改用清单文件来定义,结构更清晰,渲染更快。用户打开模型选择界面时,列表能秒出,不用干等着。
延迟加载提供程序依赖是一个很聪明的策略。OpenClaw支持多种模型提供程序,比如OpenAI、Anthropic、DeepSeek等等,每个提供程序都有自己的客户端库和依赖。以前启动时可能一股脑把所有提供程序的依赖都加载进来,不管用户实际用不用。现在改成按需加载,只有当你真正用到某个提供程序时,它的依赖才会被初始化。这样一来,启动时的内存占用和加载时间都大幅减少。
外部运行时依赖修复是针对打包安装场景的。有些依赖在打包成可执行文件或者容器镜像时可能会丢失或者路径不对,导致运行时报错。现在OpenClaw能在运行时检测并修复这些外部依赖,自动补全或者重新定位,让打包安装的体验更顺畅,不会因为某个依赖缺失而启动失败。
系统结构优化让运行更轻更稳
底层架构这次做了优化,主要目标是降低启动负担,提高稳定性。
模型加载改为静态目录和清单驱动,不再一次性加载所有资源。依赖项按需加载,用到才加载,这样可以减少资源浪费。
启动速度因此变快,系统运行更流畅。对于用户来说,体验更加顺畅,不需要等待长时间初始化。
依赖自动修复功能解决了安装过程中的常见问题。系统可以自动补齐缺失组件,用户不需要手动处理复杂环境配置。
这些优化让系统更易用,也更稳定。
插件开发工具包迎来破坏性变更
这次更新里有一个需要插件开发者特别注意的破坏性变更,涉及工具结果转换的API调整。具体来说,之前专门为Pi平台提供的api.registerEmbeddedExtensionFactory(...)兼容路径被移除了。如果你之前写的插件用了这个API来处理工具结果转换,现在必须改成新的方式。
新的标准做法是使用api.registerAgentToolResultMiddleware(...),并且在插件的contracts.agentToolResultMiddleware中声明目标执行环境。这样做的目的是让工具结果转换在所有支持的环境中都能一致运行,不管是Pi平台还是Codex应用服务器的动态工具,行为都统一。之前Pi-only的方式会导致同样的转换逻辑在不同平台上表现不一致,维护起来很头疼。
这个变更虽然对现有插件有破坏性,但从长远看是必要的。统一的中间件机制让插件的可移植性更强,开发者写一次转换逻辑,就能在所有支持的环境中生效,不用针对每个平台单独适配。感谢@vincentkoc在这个改进中的贡献。
对于普通用户来说,这个变更基本无感知,因为 bundled 的工具结果重写已经迁移到了新机制上。但如果你是插件开发者,或者你的团队有自定义插件,升级到这个版本后需要检查一下工具结果转换相关的代码,确保已经迁移到新API,否则插件可能会出问题。
各项问题修复汇总
除了上面这些大功能,这次更新还顺手修了一堆小问题,覆盖Telegram、Slack、MCP、会话管理和TTS几个模块。
Telegram相关的修复主要是提升了消息收发的稳定性和对特殊消息类型的处理。以前可能在某些情况下消息发不出去,或者对图片、文件这类非文本消息响应不正常,现在这些问题得到了改善。
Slack集成方面,修复了连接稳定性和消息格式解析的问题。如果你把OpenClaw接入了Slack工作区,现在它的响应更可靠,对Slack特有的消息格式也能更好处理。
MCP(Model Context Protocol)相关的修复优化了上下文传递和工具调用的衔接。MCP是OpenClaw用来在不同组件之间传递模型上下文的标准协议,这次修复让上下文信息在传递过程中更完整,减少了信息丢失或者格式错乱的情况。
会话管理方面的改进让多轮对话的状态保持更稳定。以前在长时间对话或者频繁切换话题时,会话状态可能会异常,导致AI突然忘记之前的上下文。现在会话的创建、维护和恢复都更健壮。
TTS(文本转语音)的修复主要提升了语音合成的质量和稳定性。语音播报时的断句、语调、以及长时间语音合成的连续性都有所改善,听起来的自然度更高,卡顿和异常中断的情况减少。
这次更新到底值不值得升级
综合来看,OpenClaw 2026.4.24这个版本是一个实用性很强的增量更新。语音通话接入完整智能体是体验上的质变,让语音交互从"玩具"变成了"工具"。DeepSeek V4双模型的加入给用户提供了更多选择,特别是Flash作为默认模型降低了新用户门槛。Google Meet插件的集成拓展了协作场景。浏览器自动化的多项改进让网页操作更可靠。基础设施层面的优化让系统更轻更快。插件SDK的破坏性变更虽然需要开发者适配,但统一了跨平台行为。
如果你是OpenClaw的老用户,这次升级能带来明显的体验提升,特别是语音和浏览器自动化相关的使用场景。如果你是新用户,DeepSeek V4 Flash作为默认模型能让你更快上手。建议所有用户都尽快升级到这个版本,享受这些改进带来的便利。
对于普通用户来说,最明显的变化是操作简单了。你不需要学习复杂工具,只需要表达需求。
系统会自动拆解任务并执行,这降低了使用门槛,让更多人可以直接使用。
任务完成度也提高了。以前需要手动补充的步骤,现在系统可以自动完成。
稳定性提升让用户更敢把复杂任务交给系统。你可以信任它完成多步骤流程,而不担心中途失败。
总结
这次更新让AI具备连续执行任务的能力。语音输入驱动整个系统,模型负责思考,工具负责执行,浏览器负责操作,恢复机制保证任务不中断。
整套系统形成闭环,让AI从回答问题升级为完成任务。
极客辣评
OpenClaw 2026年4月24号版本来了。现在语音功能已经能完全覆盖整个智能体了。
我个人觉得真正落地的有这些:
- → 图像生成现在严格走 OpenAI 的 gpt-image-2 接口,生成的图片总算像回事了
- → gpt-5.5 和 Codex 的 OAuth 路由终于稳定了,上下文容量调到了 272k 运行内存
- → 浏览器、谷歌会议、语音这一块加了一堆新功能,而且都挺靠谱的
- → 插件启动更轻量了,捆绑的频道依赖加载也更干净
- → Telegram 的幽灵问题修好了
- gpt image 2 现在订阅后免费使用。 通过 codex oauth 路由,用 chatgpt plus / pro 登录,直接生成。没有额外的 API 费用。