X网红认为Opus 4.8不够重大引发讨论，工作流成新战场！

2026-05-30 4K banq

AI模型越升级越无聊，真正的金矿在这

AI行业变天：模型升级没人稀罕，工作流才是新王道!

AI模型升级的边际收益正在缩小，行业焦点从模型本身转向工作流程和工具链。模型变得像通用零件，真正的价值在于如何高效使用它们，而成本成为关键竞争因素。

AI模型升级就像手机换壳：核心价值已经转移

格雷格·伊森伯格觉得Opus 4.8还不够格成为头条新闻，这说明一个关键问题：大家早就不在乎版本号跳了零点几了。这哥们靠标题党博眼球吃饭，但他这次戳中了一个真痛点。简单说，AI模型本身的升级已经变得像iPhone每年换颜色一样无聊，真正的看点在于怎么用好这些模型，而不是模型本身又聪明了百分之几。

打个比方，你买车的时候会特别在意发动机用了第几代技术吗？大多数人只关心车好不好开、省不省油、导航灵不灵。AI行业现在就处在这个转折点上，模型变成了看不见的引擎，真正有价值的是方向盘、刹车和车载系统这些配套玩意儿。

模型升级变得越来越像挤牙膏

过去两年，每次大模型发布都像过年，大家蹲在电脑前看发布会，测基准分数，惊呼AGI要来了。但现在呢？Opus 4.8出来，很多人用了半天就说了句“哦，还行”。这不是大家变挑剔了，而是进步幅度确实在缩水。就像你每天量身高，青春期一天长一厘米觉得惊喜，成年后一年长一毫米根本感觉不到。

一个很明显的信号是，有人说自己分不清4.7和4.8的区别，工作起来感觉完全一样。更尴尬的是，有些人挨个试了一遍最新模型，十分钟后又切回原来那个。这说明啥？说明对于日常任务，这些模型的差距已经小到可以忽略不计了。就像超市里的矿泉水，你闭着眼睛喝不出是哪家的。

基准测试提高了5%，听起来很厉害对吧？但写代码的时候该崩还是崩，该发呆还是发呆。普通用户根本不在乎理论上的提升，只在乎能不能帮我把活干得更顺溜。有人甚至直说，他们更关心模型会不会突然变抽风，而不是版本号又跳了多少。

真正的战场转移到了工具箱里

现在有个词特别火，叫“动态工作流”。听着玄乎，其实说白了就是让AI自己规划怎么干活，把大任务拆成小步骤，然后一步步严格执行。以前你让AI干个复杂事，它可能做到一半就跑偏了，现在有了这个，它能老老实实按流程走，不会东一榔头西一棒子。

一位开发者说得特别形象：模型是发动机，工作流是整车。你可以把同一台发动机装进不同的车里，有的开起来像拖拉机，有的像跑车。现在大家比拼的不是谁的发动机多0.1排量，而是谁的底盘稳、悬挂舒服、方向盘指向准。翻译成人话就是，谁能让AI干活更靠谱、更好用，谁就赢了。

有人拿这个自己搭了一套系统，让AI同时开好几个子任务，还能互相检查验证。结果一个独立开发者用这套东西，生产力直接拉满，能干的活比以前多多了。他说模型牌子已经不重要了，重要的是怎么把工具串起来。

还有个狠人，用一套流程让AI跑了一整夜的复杂任务，第二天早上起来一看，全自动搞定了。要换成老办法，他得坐在电脑前盯着一行行输出，困到怀疑人生。这就是工作流的力量，它把AI从一个需要你手把手教的小学生，变成了能自己写作业的初中生。

模型越来越像通用零件

以前大家挑模型特别较真，这个逻辑强那个代码好，为了选哪个能吵三天。但现在风向变了，越来越多人觉得模型就是个通用零件，像螺丝钉一样，随便抓一个来用就行。这句话听起来夸张，但细想真有道理：你拧螺丝的时候会关心这颗螺丝是哪个厂出的吗？只要拧得紧就行。

当然也有反对声音，说真遇到棘手问题，模型之间的差距还是能感觉到的。一个好模型十五分钟搞定，烂模型可能卡一天。这个说法也没错，但关键是你平时遇到几次这种极限情况？对于90%的日常任务，随便哪个主流模型都能应付，差别真没那么大。

一个更犀利的观点是，大家现在用AI的方式还停留在2023年，问问题的方式老套，得到的答案自然也就那样。你给一个2026年的模型喂2023年的提问方式，它吐出来的就是2023年的质量。问题不是模型不够好，而是你没学会怎么用好它。就像给你一台保时捷，你在菜市场开，照样跑不过电瓶车。

还有人拿手机芯片来比喻，说现在A系列芯片和骁龙芯片日常使用根本感觉不出差别，只有跑分党才在乎。AI模型也一样，真正干活的人不关心你基准测试多少分，只关心你是不是掉链子。只要不掉链子，用谁都行。

成本成了新的分水岭

当模型性能差距缩小时，价格就成了一个巨大的变量。有人说了一句特别现实的话：如果边际提升的成本比换个模型还高，那我干嘛不换？这就好比超市里两瓶差不多的牛奶，一瓶卖20，一瓶卖25，你选哪个？傻子才选贵的。

一个经常被忽略的事实是，有些新模型虽然聪明了一点点，但消耗的token数量明显更多。翻译成人话就是，它反应慢了，还更费钱。对于天天用的人来说，这就是个大坑。你为了那5%的提升，可能要多掏50%的钱，这笔账怎么算都不划算。

还有人专门做了实验，把同一个任务扔给不同模型跑，结果便宜的模型虽然笨一点，但胜在稳定省钱。贵的那个虽然偶尔灵光一现，但大多数时候跟便宜货差不多，还动不动就闹脾气罢工。这就像买车，你花一倍的钱买个豪华品牌，结果天天往修理厂跑，还不如买个普通牌子省心。

护城河不再是技术而是场景

以前AI公司的核心竞争力是技术领先，谁模型最聪明谁就牛。但现在逻辑变了，因为聪明程度拉不开差距了，真正的护城河变成了你怎么用这些模型解决实际问题。简单说，能不能帮用户省时间、省钱、省力气，这比模型分数重要一百倍。

有人拿数据库来打比方：二十年前大家天天争论哪个数据库最快，现在谁还关心这个？只要不崩，用哪个都行。AI模型正在走同样的路，六个月内“选哪个模型”这个问题就会变得像“选哪个数据库”一样无聊。大家只关心你的系统稳不稳，方不方便，贵不贵，至于底层是MySQL还是PostgreSQL，没人问。

一家公司如果只是发布模型升级，那它就是个零件供应商。但如果它能围绕模型搭建一套好用的工具链，让开发者生产力翻倍，那它就变成了解决方案公司。前者赚的是辛苦钱，后者赚的是高溢价。这个道理在科技圈已经验证过无数次了。

有个评论说得特别到位：模型本身已经不重要了，重要的是你周围的工具怎么连接起来。就像互联网早期大家比网速，现在谁还在意你家用的是几兆宽带？大家只关心你能不能流畅看视频、打游戏不掉线。AI也一样，大家只关心你能不能帮我一天干完三天的活，版本号是4.8还是4.9，真的无所谓。

有人甚至更极端地说，他现在用AI根本不看是什么模型，系统后台自动帮他选，他只管用。这就像你用Google搜索，你会关心Google后端用了几千台服务器、跑的是什么算法吗？你不会，你只关心搜索结果准不准。AI也要走到这一步，用户不关心引擎盖下面装了什么，只关心车好不好开。

开源和成本竞赛加速了这个趋势

还有一个不容忽视的力量是开源模型。虽然开源可能在极限性能上还差一点点，但成本优势太恐怖了。就像小米手机刚出来的时候，虽然综合体验可能不如苹果，但价格只有三分之一，这就足够把整个市场搅得天翻地覆。

有人警告说，中国厂商正在拼命追赶，成本控制能力是世界级的。一旦他们把质量提上来，那些贵得要死的闭源模型日子就难过了。这不是危言耸听，你看看手机市场就知道了，当年苹果三星垄断高端，现在华为小米OV打得有来有回。AI模型市场也会走这条路。

还有一个经常被忽略的点：很多人的日常需求根本不需要最聪明的模型。就像你平时开车去超市，不需要一辆F1赛车。一个更便宜、速度稍慢但够用的模型，对大多数人来说反而更合适。那些花里胡哨的旗舰模型，大部分时间都在大材小用，浪费钱还浪费电。

未来属于会搭积木的人

总结一下，AI行业正在经历一个根本性的转变。模型本身从主角变成了配角，就像电脑里的CPU，虽然重要但没人天天念叨。真正的主角变成了你怎么用这些模型构建解决方案。谁能搭出更好用的积木，谁就能笑到最后。

这个趋势对普通用户是好事，因为选择变简单了。你不用再纠结哪个模型最聪明，只用关心哪个工具最顺手。对开发者也是好事，因为他们可以在稳定的模型基础上放心搭东西，不用担心明天底层技术就变了。对创业公司更是机会，因为他们可以在模型之上做创新，而不是跟巨头拼模型研发。

有人用一句话总结了这个时代的本质：未来的竞争不是模型有多聪明，而是谁能用更聪明的方式把模型用起来。就像智能手机时代，赢家不是发明触控屏的公司，而是把触控屏、应用商店、生态系统完美整合在一起的苹果。AI行业也一样，赢家不会是那个模型分数最高的公司，而是能让用户真正感受到生产力的那个公司。

所以下次再看到某某模型又升级了零点几，你可以淡定地喝口水，然后问一句：“配套的工具箱更新了吗？”如果没更新，那这个升级就跟你没啥关系。毕竟，谁在乎发动机又加了五马力啊，我只在乎踩油门的时候车能不能窜出去。

原文标题：GREG ISENBERG认为Opus 4.8不够重大引发讨论
作者单位：社交媒体观点聚合
背景：基于X平台讨论整理，反映开发者社区对AI模型迭代趋势的真实看法