把两个当前最火的大模型——ChatGPT 5.4和Claude Opus 4.6——直接拉到我公司上班,让它们干我们每天都要干的真实业务。
不是网上那些什么"大模型考卷",不是"编程比赛谁更快",更不是那种"看我给你变个魔术"的炫技演示。就是实打实的:写邮件、分析销售录音、定公司战略。
一模一样的活儿。
一模一样的指令。
俩AI同时上岗,我当监工。
结果出来了,网上那些吹得天花乱坠的"GPT要统治世界"的帖子,建议你们先别急着转。
咱先说说这个实验到底咋玩的
我从自己公司——Single Grain,一家做数字营销的机构——随手抓了三个日常任务。这三个任务不是我在实验室里想出来刁难AI的,是我们团队每个礼拜都在干的破事儿。
第一个任务:分析一段Gong录音。Gong是个软件,专门录销售和客户的通话,然后帮销售分析哪儿说得好哪儿说得烂。我扔给俩AI一段3000词的转录文本,让它们给我总结关键点、找行动项、给战略建议。
第二个任务:写一封冷邮件。要求是用我们CEO Eric Siu的口吻,发给一家刚融完C轮的B2B SaaS公司的市场副总,邮件里要提一下我们的产品ClickFlow,不能有破折号,不能报价,控制在150词以内,读起来得像人写的。
第三个任务:定GTM策略。GTM就是Go-to-Market,产品上市策略。假设我们是一家年收入1500万美元的营销公司,手里有40个客户,每个客户每月付我们8000到15000美元。现在我们要把SEO服务产品化,用AI干活。让我给5条战略建议,还要算出来能多赚多少钱。
就这么三个破活儿,我把一模一样的指令同时喂给俩AI,啥前置提示没有,啥示范例子不给,就硬碰硬看谁牛逼。
结果呢?结果让我这个天天和AI打交道的老油条都惊了。
第一个活儿:分析Gong录音,GPT写了一篇满分作文,可惜跑题了
我先扔给俩AI一段3000词的Gong转录文本。这文本是我随手从公司内部扒下来的,就是一段普通的工作对话。
GPT-5.4先交卷,用时37.6秒,哗啦啦吐出来9314个字符,比我写这篇文章还长。格式漂亮,结构清晰,什么人参加了会议,聊了哪些细节,会后该干啥,还有6条战略建议,写得头头是道。
我看着这份答卷,当时就想:牛逼啊,这分析水平,赶上我们销售总监了。
然后我往下滑,看到Opus的回复。Opus用时36.3秒,吐出来5696个字符,比GPT短了快一半。
但Opus的第一句话是这样的:"这不是传统的销售通话,这是一个内部团队会议。"
我当时就愣住了。
我赶紧翻回去看那段转录文本。我靠,Opus说对了。那真不是销售打给客户的电话,那是我们内部的团队启动会,聊的是团队分工、领导层变动、下一步怎么干。
GPT写了一篇满分作文,题目叫《如何分析一场完美的销售通话》。问题是,我们压根儿没开销售通话。
这事儿在生意场上太要命了。你框架都搞错了,后面再漂亮也是白搭。GPT帮我把一场内部会议分析出了6条销售建议,我要真拿着这些建议去干活,那得把团队带沟里去。
Opus虽然写得短,但人家第一件事是搞明白这到底是啥。方向对了,后面再怎么走都是对的。
你们能体会那种感觉吗?就像你问一个导游"这地方怎么玩",GPT掏出一本《巴黎旅游指南》塞给你,写得特别详细,卢浮宫几点开门、塞纳河游船多少钱、哪个咖啡馆的牛角包最好吃,全都有。但问题是,你在东京。Opus先抬头看了一眼周围,说:"等等,这儿是东京啊。"然后才开始给你指路。
这就是我在这行干了这么多年最明白的一个道理:在生意场上,听懂人话比会说人话重要一百倍。你连现在是什么场合都没搞明白,就别说什么"我这儿有六个战略建议"了。
第二个活儿:写冷邮件,GPT秒回但Opus扎心
第二个任务是写冷邮件。冷邮件就是那种你发给不认识的人,想让对方回你的邮件。这活儿特讲究,写得太像营销直接进垃圾箱,写得太随意人家觉得你不专业。
我给的要求是:用我们CEO Eric Siu的口吻,写给一家刚融完C轮的B2B SaaS公司的市场副总。邮件里要点一下我们的产品ClickFlow,但不能提价格,不能有破折号,字数控制在150以内,最关键的是:读起来得像人写的,不像机器生成的。
GPT-5.4用时3.3秒,啪的一下就出来了。148个词,格式规整,语气专业,该有的都有了,不该有的一个没有。
但有一句话让我看了特别眼熟:"I took a look at [Company]..."——我看了一眼贵公司……
这句话,今天已经有至少一万个销售代表写过一万遍了。专业吗?专业。安全吗?安全。但那个收邮件的市场副总,每天打开邮箱,看到的第一句话全是这个。
Opus用时7.6秒,比GPT慢了一倍还多。邮件打开第一句是:"the pressure to scale pipeline just doubled overnight."——你们公司刚融完C轮,压力是不是一夜之间翻倍了?
我当时看到这句话,脑子里嗡的一下。因为我太知道那种感觉了。我们公司融完资那天,所有合伙人坐在一起,没有一个人笑得出来。融资是钱进来了,但钱是来打仗的,不是来花的。那个KPI翻倍的压迫感,真的是一夜之间的事儿。
Opus还顺手在邮件里提了几个我们服务过的客户名字,我没让它写,它自己加的。
这封邮件多写了19个词,超了要求,如果按死板的打分标准,这叫"没遵守指令"。但要是真发给客户,你觉得哪一封能收到回复?
GPT那封邮件,收件人会看一眼,在心里默默归类:"哦,又一个来推销的供应商。"然后关掉,忘了。Opus那封邮件,收件人会停下来,因为那句话戳中了他刚开完董事会的那种状态。
这事儿让我想明白一个道理:如果你今天要发500封冷邮件,GPT能帮你全发了,而且发得挺像回事。但如果你要发给50个真正重要的人,那些能决定你下个月业绩的人,Opus写的那封,回你的人会更多。
不是Opus更聪明,是它更懂人。它知道刚融完C轮的人晚上睡不着觉的时候在想什么。
第三个活儿:定GTM战略,GPT给方案Opus给脑子
第三个任务是最狠的。我让俩AI帮我定一个GTM战略,就是产品上市策略。背景是这样的:假设我们是一家年收入1500万美元的营销公司,手里有40个SEO客户,每个月收他们8000到15000美元。现在我想把SEO服务产品化,用AI代替一部分人工,做成标准化产品卖给更多客户。请给我5条战略建议,还要算清楚这么干能多赚多少钱。
GPT-5.4用了34.7秒,吐出来11835个字符,是一套完整的执行方案。五条建议排好队,三层定价模型,分阶段 rollout,每个层级能赚多少钱写得清清楚楚,最后算出来年增收240万到260万美元。
这方案打印出来,直接扔给任何一家公司的运营副总,人家第二天就能开会部署。结构完整,逻辑清晰,每一步都给你画好了。
Opus用了78.5秒,是GPT两倍还多的时间,吐出来10962个字符,比GPT短一点儿。但Opus的切入角度完全不一样。
Opus上来第一件事是算账。"40个客户,平均每个月11500美元,一年就是550万美元的SEO收入。"它先把这个账算明白,然后把成本结构推出来,再开始给建议。
然后Opus提了一个特别损的招:搞一个"证据引擎"阶段,先用AI在旁边偷偷干两个月,拿AI的结果和人工的结果做盲测,自己先看看到底谁干得好,然后再往外卖。
最后Opus写了一句话:"这事儿最大的风险不是技术不行,是讲故事讲不圆。"
我当时看完这句话,后背都凉了。因为它说对了。我们公司内部聊AI产品的时候,吵得最凶的从来不是"AI能不能干活",而是"客户信不信"。你告诉客户"我们让AI给你做SEO",客户脑子里想的是"你们是不是偷懒不想干活"。你告诉客户"我们用AI增强人工",客户觉得你在玩概念。这事儿就是个讲故事的事儿,Opus一眼就看穿了。
俩模型都在那儿瞎编数字,因为它们都没有我这公司的真实财务报表。但编的方式不一样。
GPT编数字的时候语气特肯定:"年增收240万美元。"你要是不明真相,拿着这个数字就去给董事会汇报了,下个月就得被问死在台上。
Opus编数字的时候写的是:"假设6个月内30%的客户采用,那就是12个客户。"它把假设条件写在前面,告诉你这是按什么逻辑算出来的,你要是觉得这个假设不靠谱,自己可以改。
一个给你方案,一个给你脑子。
你要是拿着GPT的方案直接去找CEO,你就成了那个把整个战略建立在瞎编数字上的人。你要是拿着Opus的框架去找CEO,你进去的时候带着的是思考过程,CEO问你"为什么是12个客户",你能把假设一条一条摆出来。
说到速度这事儿,我得给GPT说句公道话
现在网上全是吹GPT-5.4速度多快的帖子。我得说,这速度是真的快。
我们仨任务算下来,GPT平均25.2秒,Opus平均40.8秒,GPT快了差不多1.6倍。写邮件那任务,GPT 3.3秒,Opus 7.6秒,GPT是两倍多的速度。
但问题是,谁在乎这四秒钟啊?
你写一封冷邮件,四秒钟的差距,就是你喝口水、喘口气的时间。又不是发一千封,你盯着秒表算账。
速度真正有用的地方是跑量。如果你今天晚上要跑1000个内容分析,GPT快出来的那点儿时间,真的能变成实实在在的成本节省,能让你早俩小时睡觉。
但如果你是在做战略决策,是做那种决定了未来三个月往哪儿走的事情,多花40秒钟换来更好的理解能力,这账怎么算都划算。
40秒钟,就是上个厕所的功夫。你上个厕所回来,拿到一份真正理解了你在干啥的方案,这买卖不亏。
说实话,GPT真不是不行,它是太行了
我这么夸Opus,不是要踩GPT。
GPT-5.4真的很强,很强很强。
写邮件那任务,人家148个词,所有约束全满足,一个破折号没有,价格不提,字数刚好。你要是给GPT画个框,它能在框里站得笔直,纹丝不动。这事儿特别重要。如果你有大量标准化的工作,每一步都有明确的规则,GPT能给你干得明明白白,一点错不出。
那个战略方案,GPT写的确实立即可执行。拿给一个刚入行的小朋友,人家看完就知道周一早上该干啥。Opus那方案,默认你看完还得自己琢磨,它给你的是工具,不是答案。
速度这块儿,34.7秒和78.5秒的差距,如果你每天都要写方案,这差距是真的能救命的。
所以我的结论是:俩都是好学生。
GPT是那种考试永远不跑题、每道题都答得规规矩矩的好学生。
Opus是那种喜欢举手问"老师这道题到底想问什么"的好学生。
GPT得分是8分、8分、8分、9分、6分、6分,综合7.3。
Opus是9分、9分、9分、6分、9分、9分,综合8.5。
差的那1.2分,全差在"听懂人话"上了。
那我到底选谁上班
我们在Single Grain跑着30多个AI代理,什么活儿都干:分析销售电话、写冷邮件、定战略、管招聘、写内容。每天几百个任务全是AI在跑。
看完这轮测试,我决定继续用Opus跑我的主力部队。
GPT我会留着干那些量大管饱的活儿:从一堆文件里抽数据、分类整理内容、批量写摘要。这种活儿要的就是速度快、不出错,GPT完美匹配。
但我的AI代理们能活到今天,核心能力就是听懂上下文。它们知道什么时候这个会议不是销售会议。它们知道什么时候这封邮件要的不是快,是要让对方停下来看。它们知道什么时候这个战略方案需要的是算账,不是列清单。
这才是我愿意花钱买的东西。
所以别听网上那些人喊什么"GPT出来了快把以前的全扔了"。你自己跑一遍测试,用你真正干的活儿跑一遍。那个结果,才是真的结果。
最后
我这人干营销干了快二十年,见过太多"革命性技术"了。每一个出来的时候都有人说"这回全完了""这回全变了"。但真到干活的时候,你会发现,技术再牛逼,最后还得看你能不能把事儿干明白。
AI也一样。
GPT写得快,写得漂亮,写得规整。但它得先知道这是个啥事儿,才能开始写。你给它个假命题,它能给你写出一篇满分假答案。
Opus写得慢,写得少,写得有时候不太守规矩。但它会先琢磨一下:这到底是个啥?我在这儿干啥?然后才开始动笔。
在生意场上,"把事儿干明白"比"把事儿干完"重要一万倍。
你可以用AI把一千封邮件全发完,但如果你发给不该发的人,说了一些不该说的话,这工作量就是负资产。你可以用AI把战略方案写得漂漂亮亮,但如果框架一开始就是歪的,这方案就是带团队跳坑。
所以我的建议是:该用GPT的地方使劲用,能多快就多快。但那些真正重要的活儿,那些决定了你能不能吃到下个月饭的活儿,让Opus这种会动脑子的AI干。多等那40秒钟,换来一个"这事儿咱干还是不干"的正确判断,值了。