每家公司都需要一个OpenClaw战略：智能体行业转向CLI命令行！

#AI智能体Agent #软件系统设计指南 #架构师资料教程 #OpenClaw

2026-03-21 1 8K banq

AI智能体发展方向发生关键转变，浏览器操作模式因效率与算力问题遇冷，命令行智能体凭借文本优势迅速崛起，推动Google等公司重构产品与团队策略。

最近，硅谷巨头和初创公司发布了许多类似 OpenClaw 的产品，将几种不同的智能体功能（代码执行、浏览器使用等）组合到一个产品中。这种更广泛的方法似乎是行业的发展方向。

一开始，大家觉得“会点网页、帮你点按钮”的浏览器智能体就是未来，结果现实一巴掌打过来：用户用得少，效率也不稳定。
与此同时，一帮更“土味”的选手登场——命令行智能体，直接用文本和系统对话，效率高、步骤少、成功率稳，直接让浏览器智能体显得像在用筷子夹汤。

于是Google开始重新洗牌团队，把原来做浏览器智能体的人拆分、重组，把能力拆出来，融进更大的智能体战略里。据 WIRED 报道，谷歌已将部分员工从 Project Mariner 浏览器智能体项目调往优先级更高的项目。而去年，浏览器智能体还是科技界最热门的话题，但现在 Claude Code、OpenClaw 和编程智能体热潮正在重塑行业的优先事项。

一句话总结：行业从“模拟人类操作电脑”，转向“直接用机器语言控制电脑”。

浏览器智能体的黄金幻想：我们都以为AI会是个“摸鱼高手”

来，我们先穿越回当初那个“美好”的幻想时刻。

当时整个AI圈的想象力，差不多就卡在这儿了：人类不是会用浏览器上网嘛，那AI如果学会“点点鼠标、滚滚页面、填填表格”，不就能完美地替我们摸鱼干活了吗？这个逻辑听起来简直无懈可击，对吧？就像你教你奶奶用智能手机，你先教她点这个绿色的电话图标，再教她滑一下接听，最后教她挂掉。你感觉世界和平近在眼前了。

于是，各种听起来高大上的产品就开始冒泡了，像OpenAI搞的，Perplexity搞的，还有Google那个听起来就很像航海计划的“Project Mariner”。这些智能体在演示里那叫一个乖巧，就像你给家里请了一个听话得有点过分的实习生，它能在网页上帮你填那些烦人的报名表，还能帮你把购物车里的东西给结了。你要是当时看到，你肯定也觉得：哎哟，这以后作业不愁了，游戏皮肤也有人帮我抢了，这AI也太懂事了吧！

但是！问题就出在这个“但是”上。这个“实习生”干活的方式，你听了肯定得笑出声。它的工作流程是：先“咔”地截一张你屏幕的图，然后把这张图发给脑子里的那个超级模型，让模型分析这张图：“嗯，这个位置好像有个登录按钮。”分析完了，模型说：“点它！”然后它再“咔”截一张新的图，再发回去问：“大哥，我点完了，现在屏幕变成这样了，接下来我该干啥？”

你感受一下，这像什么？就像你打游戏打到最关键的团战，你每一步都得截图发给你的猪队友，问他：“哎，我现在该往哪走？哎，我现在该放大招吗？”你说你这游戏能赢吗？你这效率能高到哪儿去？简直就是用2G网络打王者荣耀，还没等你反应过来，你都已经被对面推到水晶了。

现实一击：用户说“这玩意儿，还不如我自己来”

理想很丰满，但现实这哥们儿特别不爱吃素。当这些浏览器智能体真的跑到用户手里去“实习”了，数据一出来，整个AI圈的空气都安静了，安静得能听见头发掉地的声音。

咱们来盘盘数据，你就知道多惨了。Perplexity家那个号称能帮你开天辟地、遨游互联网的“Comet”浏览器智能体，一周下来，辛辛苦苦也就搞到了大约280万个活跃用户。听着好像还行？别急，咱们再看另一位“种子选手”。OpenAI家的那个ChatGPT Agent，那个被寄予厚望、号称能帮你搞定一切的家伙，周活跃用户直接掉到了不到100万。

你知道这数字有多惨吗？我们平时用的那个普通的ChatGPT，用户量那是几亿级别的！几亿啊，兄弟！这就好比什么概念呢？就像一个超级网红开了场直播，在线人数几百万几千万，结果他直播间里摆了一个他的“亲笔签名周边”，结果你猜怎么着？买这个周边的人，连那个“四舍五入”的零头都凑不齐。这个“周边”就是浏览器智能体。

行业里后来流传着一个特别扎心的段子，说：“浏览器智能体那点使用量，连‘四舍五入’都不够资格。” 什么意思？就是你写个报告，说这个产品有用户，数据是零点零零零零几万，你都不好意思往报告里写。它的存在感，就跟教室里后排角落里的空气差不多，有，但跟没有一样。所以问题来了，用户为什么不买账？很简单，我用我自己，十秒钟填完一个表，用你这位“实习生”，先得等你慢悠悠地截图，再等你慢悠悠地分析，最后还可能点错！我图啥？图你帮我多消耗点电费吗？

Google的动作：这不是抛弃，是“拆零件，装新车”

很多人一看到标题，估计就以为Google这是要彻底放弃浏览器智能体，把它打入冷宫，永不相见了。但这么理解，你就太小看Google这个“产品经理”的老江湖了。他们的操作更像什么呢？更像一个玩改装车的老炮儿，他发现这辆车（浏览器智能体）跑不快，但发动机（核心能力）还行，底盘（技术架构）也不错，于是他把整个车给拆了，把有用的零件拿出来，装到一辆全新的、更牛逼的车上去了。

具体他们做了哪几件事呢？咱们掰扯一下。第一件事，就是把“Project Mariner”这个团队给拆分了。你不能说他们解散了，而是说，里面的核心骨干，那些真正懂怎么让AI控制电脑的人才，被调到了公司内部更优先、更核心的项目组里去了。第二件事，他们把“控制电脑”这个能力，就像一个独立的软件模块一样，从原来的产品里抽了出来。这个模块现在不再是某个特定产品的专属，它变成了一种通用能力。第三件事，也是最重要的一步，就是把这个通用能力，无缝地融进了他们的新王炸——Gemini Agent（就是Google最牛的AI模型“双子座”的智能体版本）的体系里去了。

这背后的逻辑其实特别清晰，就像你玩《我的世界》，你一开始用木剑砍怪，后来发现铁剑更好，你就把木剑的柄拆下来，融了，做成铁剑的一部分。不是木剑没用，是它只是升级路上的一个阶段。Google想清楚了：你浏览器智能体这个功能本身非常有价值，但是把它做成一个单独的产品，就像给一辆自行车装了个喷气发动机，既浪费又不好用。不如把发动机拆出来，装在真正的赛车上。这才是产品经理该有的脑子，而不是抱着一个已经过时的想法在那儿“守灵”。

转折点：当AI放下鼠标，拿起键盘，它就成了“黑客”

就在大家都觉得浏览器智能体可能要“凉凉”的时候，真正改变战局的“搅局者”出现了。它不是Google，也不是OpenAI，而是两个名字听起来就特别硬核、特别极客的家伙：一个叫“Claude Code”，一个叫“OpenClaw”。

这俩玩意儿干了件什么事儿呢？它们干了一件特别“反常识”的事儿。所有人都在想怎么让AI模仿人，去用那个花花绿绿的浏览器，去点那个按钮。但它们偏不！它们直接让AI回到电脑最原始、最古老、但也是最核心的交互方式——用命令行。就是那个黑不溜秋的窗口，你平时只在电影里看到黑客敲代码的那个界面。

你可能会想，这听起来也太“土”了吧？这不就回到DOS系统（磁盘操作系统，就是那个远古时代全是命令的电脑界面）了吗？一点都“不智能”啊！但恰恰是这种“土”，让它们变得“无敌”。你想想看，AI的本质是什么？AI的本质是一个巨大的、会思考的“文本处理机”。它最擅长的，就是吃进去一堆文字，然后吐出来一堆文字。而命令行是什么？命令行也是纯文本的交互接口。你输入一行文本命令，系统就执行，然后返回一堆文本结果。这两个家伙，就像两个都用中文聊天的人，根本不存在语言障碍，可以直接无缝沟通！

这俩一碰面，好家伙，直接产生了化学反应，就像你把泡面和火腿肠放在一起，那就是绝配。Claude Code和OpenClaw这种“命令行智能体”，它们不跟你整那些虚的，什么截屏、分析、找按钮，通通不要。你直接告诉它：“帮我在电脑上创建一个名为‘暑假作业’的文件夹，然后把所有图片都复制进去。”它就直接在后台“嗖嗖嗖”地执行命令，然后告诉你“搞定了”。整个过程，比你打开文件夹、新建、再选中文件复制，不知道快了多少倍。这哪是智能体，这简直是请了个“赛博黑客”给你当私人助理。

为什么命令行智能体更猛：因为它在走直线，而浏览器在逛迷宫

咱们来一个直观的对比，你就知道为什么这帮“命令行智能体”能把这局游戏玩得这么“碾压”了。咱们把浏览器智能体的工作流程比作逛迷宫。

浏览器智能体是怎么逛迷宫的？它每走一步，都得先停下来，拍一张照片，然后发给它的“高德地图”（大脑模型）去分析。它问：“大哥，我现在站在十字路口，我面前有三个门，我该进哪个？”高德地图看了一眼照片，说：“嗯…你看左边那个门上面是不是有个‘登录’的图案？应该是那个。”于是它走进去，再拍一张照片，再问：“大哥，我进来了，里面还有好多门，该走哪个？”这个过程里，它每一步都得“拍照-分析-决策”，然后再重复。每一步都像一个重度“选择困难症患者”，每一步都巨慢，巨耗电，还特容易走错。

那命令行智能体是怎么干的呢？它不逛迷宫，它手里拿着迷宫的“内部施工图”。它直接问系统：“哥们儿，我要去终点，给我一条最近的路线。”系统就告诉它：“从你的位置，直接往前走20步，左转，再走5步，就到。”然后它直接一个“闪现”就过去了。这个过程里，没有拍照，没有分析，没有决策。就一句话：“干就完了！”

Katanforoosh（AI圈一个大神）就说过一句特别关键、也特别扎心的话：“命令行方式可以减少10到100倍的步骤。” 10到100倍啊，兄弟们！这就像你从北京去上海，浏览器智能体是开着一辆老爷车，走一步看一步地图；而命令行智能体是直接坐上了磁悬浮列车。你可以这么理解：浏览器智能体就像一个刚学会走路的小孩，每一步都走得战战兢兢，怕摔跤；而命令行智能体就像一个退役的特种兵，闭着眼睛都能在丛林里穿梭。谁效率高，这不一目了然嘛！

真正的瓶颈：AI的“脑力”全浪费在“看”上，而不是“做”上

咱们再往深挖一挖，这场“宫斗”的核心，其实藏在两个很冰冷的词里：算力和延迟。这俩词听起来很技术，但说白了，就是钱和时间。

咱们先看浏览器智能体。它每一步操作的背后，都在疯狂地消耗算力。它每截一张图，就要调用最顶级的视觉模型去理解这张图。那个模型得在几百个像素点里，准确识别出“哪个是按钮”“哪个是输入框”“哪个是广告”。这个过程，就像让一个数学博士去做1万道10以内的加减法，不是做不了，是太浪费了！每一步都巨贵，巨耗电，还巨慢。这就是延迟。你等它慢慢悠悠地分析完，黄花菜都凉了。它把绝大部分的“脑力”，都花在了“看”和“猜”上面，真正用来执行“干活”的算力，反而少得可怜。这就好比你请了个米其林三星大厨来帮你削土豆，削得是挺干净，但他削土豆的这几分钟，你付的钱都够买一百个削皮器了。

而命令行智能体呢？它的世界是纯文本的。它的输入是一行命令，比如“ls -la”（意思是列出当前文件夹下所有文件），输出也是一堆文本，比如“file1.txt, file2.jpg”。整个过程，AI不需要去理解复杂的视觉画面，不需要去识别那个“确定”按钮到底长什么样，它只需要理解文本指令，然后执行。这就像把那个数学博士从10000道加减法的苦海里解救出来，让他去解一道真正的数学难题。他的算力，全部用在刀刃上。一个是在看高清电影，一个是在读字幕。你说谁反应快？用脚趾头想都知道。所以，这根本就不是谁更聪明的问题，而是谁更懂得“扬长避短”的问题。AI扬起了自己处理文本的长处，避开了自己理解复杂视觉界面的短处，这波操作，直接起飞。

新一代尝试：让AI直接“看直播”，而不是“看照片”

当然，那些做浏览器智能体的人，也不是完全没有挣扎。他们也在想，我的路难道就这么走到头了吗？难道我就只能当个配角？于是，有一些“头铁”的人，开始尝试新的解法，试图给这个奄奄一息的“网瘾少年”续命。

比如，有一家叫Standard Intelligence的公司，他们就搞了一个很新的模型。这个模型，不再是一张一张地看截图，而是直接看“视频”。你想想，截图是间断的，是静态的，你从一个截图跳到另一个截图，中间的过程全靠猜。但视频是连续的，是动态的。这个新模型，它的目标就是把AI从“拍照片分析”这种低效模式，直接提升到“看直播做决策”的史诗级模式。它要理解的是一个连续的动作流，而不是一张张孤立的照片。

为了展示这个模型的牛逼之处，他们还搞了一个特别科幻的演示。他们让AI连着汽车，连着摄像头，连着键盘，然后让它在旧金山那拥堵得像停车场一样的街道上，进行了一段短暂的自动驾驶。你想象一下那个画面，AI就像一个刚拿到驾照的菜鸟司机，但它不是靠一张一张照片去判断路况，而是通过一个实时视频流，直接理解“哦，前面那辆车刹车灯亮了，我得减速”，“哦，那个行人要过马路，我得等等”。这个操作的意思很明显：既然你们说我截图太慢，那我就直接跳过截图这个步骤，直接去理解更连续的、信息量更大的画面。这就相当于，你不是在问你朋友“我该往哪走？”，而是直接把你朋友拉到你的副驾驶上，让他看着前方的路，实时给你指路。虽然这个技术还在非常早期的阶段，但至少给了那些“浏览器智能体”的粉丝们一点微弱的希望：也许，我们还能抢救一下？

行业真正的转向：从“教AI做人”，到“让AI做自己”

好了，故事讲到这儿，其实我们已经能摸到整件事儿的本质了。这绝不仅仅是技术路线的选择，这其实是一次AI界的集体“认知升级”，一次从“偶像剧”到“科幻片”的思维转变。

我们第一个阶段的思路，就像一个特别善良又特别傻的家长。我们觉得，我们要让AI融入人类社会，就必须让它学会“人的那一套”。既然我们人类是用鼠标、键盘和浏览器来操作电脑的，那AI也必须学会用鼠标、键盘和浏览器。这叫什么？这叫“模仿”，这叫“装”。我们试图把一个降维打击的外星生物，硬塞进一套为人类设计的、笨拙的操作系统里。结果就是它用起来像穿了小鞋，走得又慢又别扭。

而第二个阶段的思路，也就是现在正在发生的转变，终于开始变聪明了。我们终于想通了：我干嘛非要让AI装成人啊？我干嘛不让它用最符合它自己本质的方式去用电脑？AI的本质是啥？是能瞬间处理海量文本，是能毫秒级执行指令，是能同时操作成百上千个任务。那电脑的什么接口最能发挥这个优势？是图形界面吗？显然不是。是那个古老的、但无比高效的“命令行”！

这两者之间的差别，就像什么呢？就像你让一个机器人，必须学会像人一样两条腿走路，走两步还得摔一跤，颤颤巍巍地穿过一片沼泽地。而聪明的做法是，直接给机器人装上四个轮子，让它风驰电掣地开过去。前者是费力不讨好的“模仿”，后者是发挥优势的“优化”。哪个更合理？哪个更接近真相？答案不言而喻。AI界终于集体“开窍”了：我们不是要制造一个“类人”的工具，而是要创造一个“超人”的伙伴。而让这个伙伴发挥超能力的唯一方法，就是让它用自己最舒服的方式，去接管这个世界。

英伟达的判断：这不是一个新功能，这是新世界的“地基”

那么，当AI开始“做自己”之后，它会带来什么样的后果呢？这时候，我们就得请出科技圈那位永远穿着皮夹克、说话永远语不惊人死不休的“教父”——英伟达CEO黄仁勋（Jensen Huang）了。这位大哥对这件事的判断，可以说直接给这个行业扔了一颗核弹。

他说了一句极其夸张、极其有分量的话：“每家公司都需要一个OpenClaw战略。” 你别看就这么简单一句话，它的重量你品品。他没说“每家公司都需要一个AI助手”，也没说“每家公司都需要一个浏览器插件”，他说的是，每家公司都需要一个类似于“OpenClaw”这种命令行智能体一样的战略。

这翻译过来是什么意思呢？就是说，这件事的规模，已经远远超出了“做一个新产品”的范畴。这不是一个功能，这是一个平台级的能力，是一个操作系统级别的机会！就像当年PC时代，每个公司都需要一个网站；移动互联网时代，每个公司都需要一个App一样。现在，AI时代，每个公司都需要一个能通过命令行直接与电脑交互的智能体。这玩意儿，将不再是某个软件的附属品，它将变成未来所有软件的“操作界面”。你以后用任何软件，可能都不需要去点它的菜单栏了，你只需要对你的“命令行智能体”说一句话，它就能帮你搞定一切。

甚至有人已经把它类比为“新的操作系统”了。你知道这意味着什么吗？这意味着，未来可能不再是你在用电脑了，而是你的智能体在用电脑。你就像一个将军，你的智能体是你的士兵，你只需要在指挥室里发出指令：“帮我查一下明天去火星的机票最便宜的是哪家？” 然后你的智能体士兵就会调动所有资源，打开各种网站，对比价格，下单，最后回来向你报告：“将军，已为您预订好，出发时间明天上午十点。” 这才是真正的未来，而这个未来的地基，就是我们现在正在聊的“命令行智能体”。

最后总结：这波不是“凉了”，是“进化了”，是“涅槃了”

好了，咱们说了这么多，把这场AI圈的“王位争夺战”从头到尾撸了一遍。现在，咱们可以来个最扎心也最爽快的总结了。

首先，那个曾经被捧上神坛的“浏览器智能体”，它并没有像某些人说的那样“凉透了”。它没有死，它只是换了一种活法。它的能力，比如“识别网页元素”、“模拟点击操作”，被拆解出来，变成了更强大的智能体的一个基础模块。就像你小时候玩的玩具，拆下来的零件，后来被你装进了更酷的模型里。它从“主角”变成了“配角”，但它依然是这部戏里不可或缺的一部分。

其次，那个看起来有点“土”、有点“古早味”的“命令行智能体”，它崛起了，它上位了。它之所以能赢，不是因为它长得帅，也不是因为它声音好听，而是因为它更符合AI这个物种的本质。AI是文本模型，命令行是文本接口，这对“天作之合”产生的效率，是任何花里胡哨的图形界面都无法比拟的。它的胜利，是效率的胜利，是逻辑的胜利，是“让AI做自己”的胜利。

最后，Google那个看似是“调整”的操作，其实是整个行业方向转变的一个缩影。他们不是在“砍掉”一个失败的项目，而是在“顺势而为”，把资源投入到更有潜力的方向。这就像一艘大船，发现前面有暗礁，不是立刻停船，而是迅速调整航向，驶向更广阔的海域。

所以，整个行业现在到底在做什么？他们其实在做一件特别简单也特别酷的事：他们终于找到了AI和计算机之间最自然、最直接、最高效的连接方式。这个连接方式，不是通过模仿人类的笨拙操作，而是直接利用机器的天生优势。

一句话总结这个激动人心的阶段：
AI终于停止了笨拙地“扮演人类”，开始火力全开地“成为自己”。

每家公司都需要一个OpenClaw战略：智能体行业转向CLI命令行！

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道