AI智能体发展方向发生关键转变,浏览器操作模式因效率与算力问题遇冷,命令行智能体凭借文本优势迅速崛起,推动Google等公司重构产品与团队策略。
最近,硅谷巨头和初创公司发布了许多类似 OpenClaw 的产品,将几种不同的智能体功能(代码执行、浏览器使用等)组合到一个产品中。 这种更广泛的方法似乎是行业的发展方向。
一开始,大家觉得“会点网页、帮你点按钮”的浏览器智能体就是未来,结果现实一巴掌打过来:用户用得少,效率也不稳定。
与此同时,一帮更“土味”的选手登场——命令行智能体,直接用文本和系统对话,效率高、步骤少、成功率稳,直接让浏览器智能体显得像在用筷子夹汤。
于是Google开始重新洗牌团队,把原来做浏览器智能体的人拆分、重组,把能力拆出来,融进更大的智能体战略里。据 WIRED 报道,谷歌已将部分员工从 Project Mariner 浏览器智能体项目调往优先级更高的项目。 而去年,浏览器智能体还是科技界最热门的话题,但现在 Claude Code、OpenClaw 和编程智能体热潮正在重塑行业的优先事项。
一句话总结:行业从“模拟人类操作电脑”,转向“直接用机器语言控制电脑”。
浏览器智能体的黄金幻想:我们都以为AI会是个“摸鱼高手”
来,我们先穿越回当初那个“美好”的幻想时刻。
当时整个AI圈的想象力,差不多就卡在这儿了:人类不是会用浏览器上网嘛,那AI如果学会“点点鼠标、滚滚页面、填填表格”,不就能完美地替我们摸鱼干活了吗?这个逻辑听起来简直无懈可击,对吧?就像你教你奶奶用智能手机,你先教她点这个绿色的电话图标,再教她滑一下接听,最后教她挂掉。你感觉世界和平近在眼前了。
于是,各种听起来高大上的产品就开始冒泡了,像OpenAI搞的,Perplexity搞的,还有Google那个听起来就很像航海计划的“Project Mariner”。这些智能体在演示里那叫一个乖巧,就像你给家里请了一个听话得有点过分的实习生,它能在网页上帮你填那些烦人的报名表,还能帮你把购物车里的东西给结了。你要是当时看到,你肯定也觉得:哎哟,这以后作业不愁了,游戏皮肤也有人帮我抢了,这AI也太懂事了吧!
但是!问题就出在这个“但是”上。这个“实习生”干活的方式,你听了肯定得笑出声。它的工作流程是:先“咔”地截一张你屏幕的图,然后把这张图发给脑子里的那个超级模型,让模型分析这张图:“嗯,这个位置好像有个登录按钮。”分析完了,模型说:“点它!”然后它再“咔”截一张新的图,再发回去问:“大哥,我点完了,现在屏幕变成这样了,接下来我该干啥?”
你感受一下,这像什么?就像你打游戏打到最关键的团战,你每一步都得截图发给你的猪队友,问他:“哎,我现在该往哪走?哎,我现在该放大招吗?”你说你这游戏能赢吗?你这效率能高到哪儿去?简直就是用2G网络打王者荣耀,还没等你反应过来,你都已经被对面推到水晶了。
现实一击:用户说“这玩意儿,还不如我自己来”
理想很丰满,但现实这哥们儿特别不爱吃素。当这些浏览器智能体真的跑到用户手里去“实习”了,数据一出来,整个AI圈的空气都安静了,安静得能听见头发掉地的声音。
咱们来盘盘数据,你就知道多惨了。Perplexity家那个号称能帮你开天辟地、遨游互联网的“Comet”浏览器智能体,一周下来,辛辛苦苦也就搞到了大约280万个活跃用户。听着好像还行?别急,咱们再看另一位“种子选手”。OpenAI家的那个ChatGPT Agent,那个被寄予厚望、号称能帮你搞定一切的家伙,周活跃用户直接掉到了不到100万。
你知道这数字有多惨吗?我们平时用的那个普通的ChatGPT,用户量那是几亿级别的!几亿啊,兄弟!这就好比什么概念呢?就像一个超级网红开了场直播,在线人数几百万几千万,结果他直播间里摆了一个他的“亲笔签名周边”,结果你猜怎么着?买这个周边的人,连那个“四舍五入”的零头都凑不齐。这个“周边”就是浏览器智能体。
行业里后来流传着一个特别扎心的段子,说:“浏览器智能体那点使用量,连‘四舍五入’都不够资格。” 什么意思?就是你写个报告,说这个产品有用户,数据是零点零零零零几万,你都不好意思往报告里写。它的存在感,就跟教室里后排角落里的空气差不多,有,但跟没有一样。所以问题来了,用户为什么不买账?很简单,我用我自己,十秒钟填完一个表,用你这位“实习生”,先得等你慢悠悠地截图,再等你慢悠悠地分析,最后还可能点错!我图啥?图你帮我多消耗点电费吗?
Google的动作:这不是抛弃,是“拆零件,装新车”
很多人一看到标题,估计就以为Google这是要彻底放弃浏览器智能体,把它打入冷宫,永不相见了。但这么理解,你就太小看Google这个“产品经理”的老江湖了。他们的操作更像什么呢?更像一个玩改装车的老炮儿,他发现这辆车(浏览器智能体)跑不快,但发动机(核心能力)还行,底盘(技术架构)也不错,于是他把整个车给拆了,把有用的零件拿出来,装到一辆全新的、更牛逼的车上去了。
具体他们做了哪几件事呢?咱们掰扯一下。第一件事,就是把“Project Mariner”这个团队给拆分了。你不能说他们解散了,而是说,里面的核心骨干,那些真正懂怎么让AI控制电脑的人才,被调到了公司内部更优先、更核心的项目组里去了。第二件事,他们把“控制电脑”这个能力,就像一个独立的软件模块一样,从原来的产品里抽了出来。这个模块现在不再是某个特定产品的专属,它变成了一种通用能力。第三件事,也是最重要的一步,就是把这个通用能力,无缝地融进了他们的新王炸——Gemini Agent(就是Google最牛的AI模型“双子座”的智能体版本)的体系里去了。
这背后的逻辑其实特别清晰,就像你玩《我的世界》,你一开始用木剑砍怪,后来发现铁剑更好,你就把木剑的柄拆下来,融了,做成铁剑的一部分。不是木剑没用,是它只是升级路上的一个阶段。Google想清楚了:你浏览器智能体这个功能本身非常有价值,但是把它做成一个单独的产品,就像给一辆自行车装了个喷气发动机,既浪费又不好用。不如把发动机拆出来,装在真正的赛车上。这才是产品经理该有的脑子,而不是抱着一个已经过时的想法在那儿“守灵”。
转折点:当AI放下鼠标,拿起键盘,它就成了“黑客”
就在大家都觉得浏览器智能体可能要“凉凉”的时候,真正改变战局的“搅局者”出现了。它不是Google,也不是OpenAI,而是两个名字听起来就特别硬核、特别极客的家伙:一个叫“Claude Code”,一个叫“OpenClaw”。
这俩玩意儿干了件什么事儿呢?它们干了一件特别“反常识”的事儿。所有人都在想怎么让AI模仿人,去用那个花花绿绿的浏览器,去点那个按钮。但它们偏不!它们直接让AI回到电脑最原始、最古老、但也是最核心的交互方式——用命令行。就是那个黑不溜秋的窗口,你平时只在电影里看到黑客敲代码的那个界面。
你可能会想,这听起来也太“土”了吧?这不就回到DOS系统(磁盘操作系统,就是那个远古时代全是命令的电脑界面)了吗?一点都“不智能”啊!但恰恰是这种“土”,让它们变得“无敌”。你想想看,AI的本质是什么?AI的本质是一个巨大的、会思考的“文本处理机”。它最擅长的,就是吃进去一堆文字,然后吐出来一堆文字。而命令行是什么?命令行也是纯文本的交互接口。你输入一行文本命令,系统就执行,然后返回一堆文本结果。这两个家伙,就像两个都用中文聊天的人,根本不存在语言障碍,可以直接无缝沟通!
这俩一碰面,好家伙,直接产生了化学反应,就像你把泡面和火腿肠放在一起,那就是绝配。Claude Code和OpenClaw这种“命令行智能体”,它们不跟你整那些虚的,什么截屏、分析、找按钮,通通不要。你直接告诉它:“帮我在电脑上创建一个名为‘暑假作业’的文件夹,然后把所有图片都复制进去。”它就直接在后台“嗖嗖嗖”地执行命令,然后告诉你“搞定了”。整个过程,比你打开文件夹、新建、再选中文件复制,不知道快了多少倍。这哪是智能体,这简直是请了个“赛博黑客”给你当私人助理。
为什么命令行智能体更猛:因为它在走直线,而浏览器在逛迷宫
咱们来一个直观的对比,你就知道为什么这帮“命令行智能体”能把这局游戏玩得这么“碾压”了。咱们把浏览器智能体的工作流程比作逛迷宫。
浏览器智能体是怎么逛迷宫的?它每走一步,都得先停下来,拍一张照片,然后发给它的“高德地图”(大脑模型)去分析。它问:“大哥,我现在站在十字路口,我面前有三个门,我该进哪个?”高德地图看了一眼照片,说:“嗯…你看左边那个门上面是不是有个‘登录’的图案?应该是那个。”于是它走进去,再拍一张照片,再问:“大哥,我进来了,里面还有好多门,该走哪个?”这个过程里,它每一步都得“拍照-分析-决策”,然后再重复。每一步都像一个重度“选择困难症患者”,每一步都巨慢,巨耗电,还特容易走错。
那命令行智能体是怎么干的呢?它不逛迷宫,它手里拿着迷宫的“内部施工图”。它直接问系统:“哥们儿,我要去终点,给我一条最近的路线。”系统就告诉它:“从你的位置,直接往前走20步,左转,再走5步,就到。”然后它直接一个“闪现”就过去了。这个过程里,没有拍照,没有分析,没有决策。就一句话:“干就完了!”
Katanforoosh(AI圈一个大神)就说过一句特别关键、也特别扎心的话:“命令行方式可以减少10到100倍的步骤。” 10到100倍啊,兄弟们!这就像你从北京去上海,浏览器智能体是开着一辆老爷车,走一步看一步地图;而命令行智能体是直接坐上了磁悬浮列车。你可以这么理解:浏览器智能体就像一个刚学会走路的小孩,每一步都走得战战兢兢,怕摔跤;而命令行智能体就像一个退役的特种兵,闭着眼睛都能在丛林里穿梭。谁效率高,这不一目了然嘛!
真正的瓶颈:AI的“脑力”全浪费在“看”上,而不是“做”上
咱们再往深挖一挖,这场“宫斗”的核心,其实藏在两个很冰冷的词里:算力和延迟。这俩词听起来很技术,但说白了,就是钱和时间。
咱们先看浏览器智能体。它每一步操作的背后,都在疯狂地消耗算力。它每截一张图,就要调用最顶级的视觉模型去理解这张图。那个模型得在几百个像素点里,准确识别出“哪个是按钮”“哪个是输入框”“哪个是广告”。这个过程,就像让一个数学博士去做1万道10以内的加减法,不是做不了,是太浪费了!每一步都巨贵,巨耗电,还巨慢。这就是延迟。你等它慢慢悠悠地分析完,黄花菜都凉了。它把绝大部分的“脑力”,都花在了“看”和“猜”上面,真正用来执行“干活”的算力,反而少得可怜。这就好比你请了个米其林三星大厨来帮你削土豆,削得是挺干净,但他削土豆的这几分钟,你付的钱都够买一百个削皮器了。
而命令行智能体呢?它的世界是纯文本的。它的输入是一行命令,比如“ls -la”(意思是列出当前文件夹下所有文件),输出也是一堆文本,比如“file1.txt, file2.jpg”。整个过程,AI不需要去理解复杂的视觉画面,不需要去识别那个“确定”按钮到底长什么样,它只需要理解文本指令,然后执行。这就像把那个数学博士从10000道加减法的苦海里解救出来,让他去解一道真正的数学难题。他的算力,全部用在刀刃上。一个是在看高清电影,一个是在读字幕。你说谁反应快?用脚趾头想都知道。所以,这根本就不是谁更聪明的问题,而是谁更懂得“扬长避短”的问题。AI扬起了自己处理文本的长处,避开了自己理解复杂视觉界面的短处,这波操作,直接起飞。
新一代尝试:让AI直接“看直播”,而不是“看照片”
当然,那些做浏览器智能体的人,也不是完全没有挣扎。他们也在想,我的路难道就这么走到头了吗?难道我就只能当个配角?于是,有一些“头铁”的人,开始尝试新的解法,试图给这个奄奄一息的“网瘾少年”续命。
比如,有一家叫Standard Intelligence的公司,他们就搞了一个很新的模型。这个模型,不再是一张一张地看截图,而是直接看“视频”。你想想,截图是间断的,是静态的,你从一个截图跳到另一个截图,中间的过程全靠猜。但视频是连续的,是动态的。这个新模型,它的目标就是把AI从“拍照片分析”这种低效模式,直接提升到“看直播做决策”的史诗级模式。它要理解的是一个连续的动作流,而不是一张张孤立的照片。
为了展示这个模型的牛逼之处,他们还搞了一个特别科幻的演示。他们让AI连着汽车,连着摄像头,连着键盘,然后让它在旧金山那拥堵得像停车场一样的街道上,进行了一段短暂的自动驾驶。你想象一下那个画面,AI就像一个刚拿到驾照的菜鸟司机,但它不是靠一张一张照片去判断路况,而是通过一个实时视频流,直接理解“哦,前面那辆车刹车灯亮了,我得减速”,“哦,那个行人要过马路,我得等等”。这个操作的意思很明显:既然你们说我截图太慢,那我就直接跳过截图这个步骤,直接去理解更连续的、信息量更大的画面。这就相当于,你不是在问你朋友“我该往哪走?”,而是直接把你朋友拉到你的副驾驶上,让他看着前方的路,实时给你指路。虽然这个技术还在非常早期的阶段,但至少给了那些“浏览器智能体”的粉丝们一点微弱的希望:也许,我们还能抢救一下?
行业真正的转向:从“教AI做人”,到“让AI做自己”
好了,故事讲到这儿,其实我们已经能摸到整件事儿的本质了。这绝不仅仅是技术路线的选择,这其实是一次AI界的集体“认知升级”,一次从“偶像剧”到“科幻片”的思维转变。
我们第一个阶段的思路,就像一个特别善良又特别傻的家长。我们觉得,我们要让AI融入人类社会,就必须让它学会“人的那一套”。既然我们人类是用鼠标、键盘和浏览器来操作电脑的,那AI也必须学会用鼠标、键盘和浏览器。这叫什么?这叫“模仿”,这叫“装”。我们试图把一个降维打击的外星生物,硬塞进一套为人类设计的、笨拙的操作系统里。结果就是它用起来像穿了小鞋,走得又慢又别扭。
而第二个阶段的思路,也就是现在正在发生的转变,终于开始变聪明了。我们终于想通了:我干嘛非要让AI装成人啊?我干嘛不让它用最符合它自己本质的方式去用电脑?AI的本质是啥?是能瞬间处理海量文本,是能毫秒级执行指令,是能同时操作成百上千个任务。那电脑的什么接口最能发挥这个优势?是图形界面吗?显然不是。是那个古老的、但无比高效的“命令行”!
这两者之间的差别,就像什么呢?就像你让一个机器人,必须学会像人一样两条腿走路,走两步还得摔一跤,颤颤巍巍地穿过一片沼泽地。而聪明的做法是,直接给机器人装上四个轮子,让它风驰电掣地开过去。前者是费力不讨好的“模仿”,后者是发挥优势的“优化”。哪个更合理?哪个更接近真相?答案不言而喻。AI界终于集体“开窍”了:我们不是要制造一个“类人”的工具,而是要创造一个“超人”的伙伴。而让这个伙伴发挥超能力的唯一方法,就是让它用自己最舒服的方式,去接管这个世界。
英伟达的判断:这不是一个新功能,这是新世界的“地基”
那么,当AI开始“做自己”之后,它会带来什么样的后果呢?这时候,我们就得请出科技圈那位永远穿着皮夹克、说话永远语不惊人死不休的“教父”——英伟达CEO黄仁勋(Jensen Huang)了。这位大哥对这件事的判断,可以说直接给这个行业扔了一颗核弹。
他说了一句极其夸张、极其有分量的话:“每家公司都需要一个OpenClaw战略。” 你别看就这么简单一句话,它的重量你品品。他没说“每家公司都需要一个AI助手”,也没说“每家公司都需要一个浏览器插件”,他说的是,每家公司都需要一个类似于“OpenClaw”这种命令行智能体一样的战略。
这翻译过来是什么意思呢?就是说,这件事的规模,已经远远超出了“做一个新产品”的范畴。这不是一个功能,这是一个平台级的能力,是一个操作系统级别的机会!就像当年PC时代,每个公司都需要一个网站;移动互联网时代,每个公司都需要一个App一样。现在,AI时代,每个公司都需要一个能通过命令行直接与电脑交互的智能体。这玩意儿,将不再是某个软件的附属品,它将变成未来所有软件的“操作界面”。你以后用任何软件,可能都不需要去点它的菜单栏了,你只需要对你的“命令行智能体”说一句话,它就能帮你搞定一切。
甚至有人已经把它类比为“新的操作系统”了。你知道这意味着什么吗?这意味着,未来可能不再是你在用电脑了,而是你的智能体在用电脑。你就像一个将军,你的智能体是你的士兵,你只需要在指挥室里发出指令:“帮我查一下明天去火星的机票最便宜的是哪家?” 然后你的智能体士兵就会调动所有资源,打开各种网站,对比价格,下单,最后回来向你报告:“将军,已为您预订好,出发时间明天上午十点。” 这才是真正的未来,而这个未来的地基,就是我们现在正在聊的“命令行智能体”。
最后总结:这波不是“凉了”,是“进化了”,是“涅槃了”
好了,咱们说了这么多,把这场AI圈的“王位争夺战”从头到尾撸了一遍。现在,咱们可以来个最扎心也最爽快的总结了。
首先,那个曾经被捧上神坛的“浏览器智能体”,它并没有像某些人说的那样“凉透了”。它没有死,它只是换了一种活法。它的能力,比如“识别网页元素”、“模拟点击操作”,被拆解出来,变成了更强大的智能体的一个基础模块。就像你小时候玩的玩具,拆下来的零件,后来被你装进了更酷的模型里。它从“主角”变成了“配角”,但它依然是这部戏里不可或缺的一部分。
其次,那个看起来有点“土”、有点“古早味”的“命令行智能体”,它崛起了,它上位了。它之所以能赢,不是因为它长得帅,也不是因为它声音好听,而是因为它更符合AI这个物种的本质。AI是文本模型,命令行是文本接口,这对“天作之合”产生的效率,是任何花里胡哨的图形界面都无法比拟的。它的胜利,是效率的胜利,是逻辑的胜利,是“让AI做自己”的胜利。
最后,Google那个看似是“调整”的操作,其实是整个行业方向转变的一个缩影。他们不是在“砍掉”一个失败的项目,而是在“顺势而为”,把资源投入到更有潜力的方向。这就像一艘大船,发现前面有暗礁,不是立刻停船,而是迅速调整航向,驶向更广阔的海域。
所以,整个行业现在到底在做什么?他们其实在做一件特别简单也特别酷的事:他们终于找到了AI和计算机之间最自然、最直接、最高效的连接方式。这个连接方式,不是通过模仿人类的笨拙操作,而是直接利用机器的天生优势。
一句话总结这个激动人心的阶段:
AI终于停止了笨拙地“扮演人类”,开始火力全开地“成为自己”。