X网红认为Opus 4.8不够重大引发讨论,工作流成新战场!

AI模型越升级越无聊,真正的金矿在这

AI行业变天:模型升级没人稀罕,工作流才是新王道!

AI模型升级的边际收益正在缩小,行业焦点从模型本身转向工作流程和工具链。模型变得像通用零件,真正的价值在于如何高效使用它们,而成本成为关键竞争因素。

AI模型升级就像手机换壳:核心价值已经转移

格雷格·伊森伯格觉得Opus 4.8还不够格成为头条新闻,这说明一个关键问题:大家早就不在乎版本号跳了零点几了。这哥们靠标题党博眼球吃饭,但他这次戳中了一个真痛点。简单说,AI模型本身的升级已经变得像iPhone每年换颜色一样无聊,真正的看点在于怎么用好这些模型,而不是模型本身又聪明了百分之几。

打个比方,你买车的时候会特别在意发动机用了第几代技术吗?大多数人只关心车好不好开、省不省油、导航灵不灵。AI行业现在就处在这个转折点上,模型变成了看不见的引擎,真正有价值的是方向盘、刹车和车载系统这些配套玩意儿。

模型升级变得越来越像挤牙膏

过去两年,每次大模型发布都像过年,大家蹲在电脑前看发布会,测基准分数,惊呼AGI要来了。但现在呢?Opus 4.8出来,很多人用了半天就说了句“哦,还行”。这不是大家变挑剔了,而是进步幅度确实在缩水。就像你每天量身高,青春期一天长一厘米觉得惊喜,成年后一年长一毫米根本感觉不到。

一个很明显的信号是,有人说自己分不清4.7和4.8的区别,工作起来感觉完全一样。更尴尬的是,有些人挨个试了一遍最新模型,十分钟后又切回原来那个。这说明啥?说明对于日常任务,这些模型的差距已经小到可以忽略不计了。就像超市里的矿泉水,你闭着眼睛喝不出是哪家的。

基准测试提高了5%,听起来很厉害对吧?但写代码的时候该崩还是崩,该发呆还是发呆。普通用户根本不在乎理论上的提升,只在乎能不能帮我把活干得更顺溜。有人甚至直说,他们更关心模型会不会突然变抽风,而不是版本号又跳了多少。

真正的战场转移到了工具箱里

现在有个词特别火,叫“动态工作流”。听着玄乎,其实说白了就是让AI自己规划怎么干活,把大任务拆成小步骤,然后一步步严格执行。以前你让AI干个复杂事,它可能做到一半就跑偏了,现在有了这个,它能老老实实按流程走,不会东一榔头西一棒子。

一位开发者说得特别形象:模型是发动机,工作流是整车。你可以把同一台发动机装进不同的车里,有的开起来像拖拉机,有的像跑车。现在大家比拼的不是谁的发动机多0.1排量,而是谁的底盘稳、悬挂舒服、方向盘指向准。翻译成人话就是,谁能让AI干活更靠谱、更好用,谁就赢了。

有人拿这个自己搭了一套系统,让AI同时开好几个子任务,还能互相检查验证。结果一个独立开发者用这套东西,生产力直接拉满,能干的活比以前多多了。他说模型牌子已经不重要了,重要的是怎么把工具串起来。

还有个狠人,用一套流程让AI跑了一整夜的复杂任务,第二天早上起来一看,全自动搞定了。要换成老办法,他得坐在电脑前盯着一行行输出,困到怀疑人生。这就是工作流的力量,它把AI从一个需要你手把手教的小学生,变成了能自己写作业的初中生。

模型越来越像通用零件

以前大家挑模型特别较真,这个逻辑强那个代码好,为了选哪个能吵三天。但现在风向变了,越来越多人觉得模型就是个通用零件,像螺丝钉一样,随便抓一个来用就行。这句话听起来夸张,但细想真有道理:你拧螺丝的时候会关心这颗螺丝是哪个厂出的吗?只要拧得紧就行。

当然也有反对声音,说真遇到棘手问题,模型之间的差距还是能感觉到的。一个好模型十五分钟搞定,烂模型可能卡一天。这个说法也没错,但关键是你平时遇到几次这种极限情况?对于90%的日常任务,随便哪个主流模型都能应付,差别真没那么大。

一个更犀利的观点是,大家现在用AI的方式还停留在2023年,问问题的方式老套,得到的答案自然也就那样。你给一个2026年的模型喂2023年的提问方式,它吐出来的就是2023年的质量。问题不是模型不够好,而是你没学会怎么用好它。就像给你一台保时捷,你在菜市场开,照样跑不过电瓶车。

还有人拿手机芯片来比喻,说现在A系列芯片和骁龙芯片日常使用根本感觉不出差别,只有跑分党才在乎。AI模型也一样,真正干活的人不关心你基准测试多少分,只关心你是不是掉链子。只要不掉链子,用谁都行。

成本成了新的分水岭

当模型性能差距缩小时,价格就成了一个巨大的变量。有人说了一句特别现实的话:如果边际提升的成本比换个模型还高,那我干嘛不换?这就好比超市里两瓶差不多的牛奶,一瓶卖20,一瓶卖25,你选哪个?傻子才选贵的。

一个经常被忽略的事实是,有些新模型虽然聪明了一点点,但消耗的token数量明显更多。翻译成人话就是,它反应慢了,还更费钱。对于天天用的人来说,这就是个大坑。你为了那5%的提升,可能要多掏50%的钱,这笔账怎么算都不划算。

还有人专门做了实验,把同一个任务扔给不同模型跑,结果便宜的模型虽然笨一点,但胜在稳定省钱。贵的那个虽然偶尔灵光一现,但大多数时候跟便宜货差不多,还动不动就闹脾气罢工。这就像买车,你花一倍的钱买个豪华品牌,结果天天往修理厂跑,还不如买个普通牌子省心。

护城河不再是技术而是场景

以前AI公司的核心竞争力是技术领先,谁模型最聪明谁就牛。但现在逻辑变了,因为聪明程度拉不开差距了,真正的护城河变成了你怎么用这些模型解决实际问题。简单说,能不能帮用户省时间、省钱、省力气,这比模型分数重要一百倍。

有人拿数据库来打比方:二十年前大家天天争论哪个数据库最快,现在谁还关心这个?只要不崩,用哪个都行。AI模型正在走同样的路,六个月内“选哪个模型”这个问题就会变得像“选哪个数据库”一样无聊。大家只关心你的系统稳不稳,方不方便,贵不贵,至于底层是MySQL还是PostgreSQL,没人问。

一家公司如果只是发布模型升级,那它就是个零件供应商。但如果它能围绕模型搭建一套好用的工具链,让开发者生产力翻倍,那它就变成了解决方案公司。前者赚的是辛苦钱,后者赚的是高溢价。这个道理在科技圈已经验证过无数次了。

有个评论说得特别到位:模型本身已经不重要了,重要的是你周围的工具怎么连接起来。就像互联网早期大家比网速,现在谁还在意你家用的是几兆宽带?大家只关心你能不能流畅看视频、打游戏不掉线。AI也一样,大家只关心你能不能帮我一天干完三天的活,版本号是4.8还是4.9,真的无所谓。

有人甚至更极端地说,他现在用AI根本不看是什么模型,系统后台自动帮他选,他只管用。这就像你用Google搜索,你会关心Google后端用了几千台服务器、跑的是什么算法吗?你不会,你只关心搜索结果准不准。AI也要走到这一步,用户不关心引擎盖下面装了什么,只关心车好不好开。

开源和成本竞赛加速了这个趋势

还有一个不容忽视的力量是开源模型。虽然开源可能在极限性能上还差一点点,但成本优势太恐怖了。就像小米手机刚出来的时候,虽然综合体验可能不如苹果,但价格只有三分之一,这就足够把整个市场搅得天翻地覆。

有人警告说,中国厂商正在拼命追赶,成本控制能力是世界级的。一旦他们把质量提上来,那些贵得要死的闭源模型日子就难过了。这不是危言耸听,你看看手机市场就知道了,当年苹果三星垄断高端,现在华为小米OV打得有来有回。AI模型市场也会走这条路。

还有一个经常被忽略的点:很多人的日常需求根本不需要最聪明的模型。就像你平时开车去超市,不需要一辆F1赛车。一个更便宜、速度稍慢但够用的模型,对大多数人来说反而更合适。那些花里胡哨的旗舰模型,大部分时间都在大材小用,浪费钱还浪费电。

未来属于会搭积木的人

总结一下,AI行业正在经历一个根本性的转变。模型本身从主角变成了配角,就像电脑里的CPU,虽然重要但没人天天念叨。真正的主角变成了你怎么用这些模型构建解决方案。谁能搭出更好用的积木,谁就能笑到最后。

这个趋势对普通用户是好事,因为选择变简单了。你不用再纠结哪个模型最聪明,只用关心哪个工具最顺手。对开发者也是好事,因为他们可以在稳定的模型基础上放心搭东西,不用担心明天底层技术就变了。对创业公司更是机会,因为他们可以在模型之上做创新,而不是跟巨头拼模型研发。

有人用一句话总结了这个时代的本质:未来的竞争不是模型有多聪明,而是谁能用更聪明的方式把模型用起来。就像智能手机时代,赢家不是发明触控屏的公司,而是把触控屏、应用商店、生态系统完美整合在一起的苹果。AI行业也一样,赢家不会是那个模型分数最高的公司,而是能让用户真正感受到生产力的那个公司。

所以下次再看到某某模型又升级了零点几,你可以淡定地喝口水,然后问一句:“配套的工具箱更新了吗?”如果没更新,那这个升级就跟你没啥关系。毕竟,谁在乎发动机又加了五马力啊,我只在乎踩油门的时候车能不能窜出去。

原文标题:GREG ISENBERG认为Opus 4.8不够重大引发讨论  
作者单位:社交媒体观点聚合  
背景:基于X平台讨论整理,反映开发者社区对AI模型迭代趋势的真实看法