推理经济已进入“精打细算”阶段: 每请求Token暴涨300%

AI推理成本飙升主因是单请求Token消耗激增,企业需分层用模型、多供应商策略、慎用推理与RL,以质量换定价权。

2025年11月14日,两位AI圈重量级人物——Vikram Sreekanti 和 Joseph E. Gonzalez 在 Substack 上发布了《推理经济(下)》。

Joseph 是加州大学伯克利分校 RISELab 的联合创始人,也是 Apache Spark 和 Ray 的核心贡献者之一,在分布式系统和 AI 推理领域堪称教科书级别的人物;
Vikram 则是 RunLLM 的联合创始人兼 CEO,这家公司专注于为企业提供基于大模型的实时问答和知识管理系统。
他们不是在“预测未来”,而是在用每天烧掉的真金白银告诉你:AI 应用的经济逻辑,正在发生根本性逆转。

Token需求暴涨,不是因为用户多了,而是每个请求都在“吃大户”

很多人以为AI成本飙升是因为用户暴增,但真相更扎心——每个请求消耗的Token数量在飙升。这不是量变,是质变。

过去你问一个问题,模型答一句,几十个Token搞定;现在呢?为了确保回答精准,系统先用向量搜索捞出100条文档,再用LLM逐条判断相关性,接着合成摘要,最后才生成答案。这一套流程下来,动辄上千Token。

RunLLM 团队甚至自嘲:“计算机科学的解决方案是加一层抽象,AI的解决方案是再调一次LLM。” 这句话看似玩笑,实则血泪——他们上个月一次内部调查,不小心烧掉了63美元!就一次!相当于普通人一个月的API预算。

为什么非得用这么多Token?因为“质量”成了生死线

你以为用户只在意快?错。用户要的是对的答案

而要让LLM答对,关键在于“上下文的质量”。

早期大家迷信向量搜索,后来发现纯向量匹配经常跑偏,于是纷纷回归关键词搜索;但关键词又太粗暴,于是又引入LLM做“reranking”(重排序)——让模型自己判断哪条信息更相关。

微软的 Vik Singh 早在两年前就预言:“如果LLM够快,为什么不直接用它做高级语义搜索?” 现在,这个预言成真了,代价就是Token消耗翻倍再翻倍。

RunLLM 的系统里,数据在进入主模型前,已经被LLM预处理、过滤、打标、分类好几轮。没有这些“前置LLM”,根本无法交付企业客户要求的高精度结果。

数据中心狂建背后,是每个AI产品都在“堆Token”

别以为NVIDIA股价疯涨只是因为训练芯片,推理端的需求才是真正的无底洞

全球科技巨头疯狂建数据中心,表面看是应对用户增长,实则是为“每请求Token数”的指数级上升买单。

作者直言:这个趋势不会停。哪怕推理变便宜(他们对此表示怀疑),只要AI深度嵌入工作流,单次任务的复杂度只会越来越高。RunLLM 团队手里有一堆“再加一层LLM就能更准”的点子,但全被成本和延迟卡住。换句话说,不是技术做不到,是钱包不答应。

省Token不是抠门,是生存技能:四大实战策略曝光

既然Token注定越用越多,那怎么用才不破产?作者基于RunLLM的实战经验,总结出四条血泪教训:

第一,别迷信大模型,小模型才是省钱神器。不是所有任务都需要GPT-5。比如过滤垃圾问题、合并日志、初筛文档——这些活儿用GPT-4.1 Mini或开源小模型(如Phi-3、Qwen-Max)完全够用。他们测试发现,用小模型做前置过滤,能减少70%的大模型调用。关键不是“用最好的”,而是“用最合适的”。可惜目前没有万能公式,只能靠任务级评估框架反复试错。

第二,别把鸡蛋放一个篮子,多供应商策略是护城河。虽然现在各家模型API越来越“封闭”(比如OpenAI的function calling格式和其他家不兼容),但DSPy这类新兴工具能自动优化提示词,大幅降低切换成本。作者建议:至少保持2-3家备用供应商。比如常规任务用Anthropic,批量处理用Google的batch mode,紧急时切回OpenAI。当然,金融或医疗客户要小心数据合规问题——多一个供应商,就多一层审计麻烦。

第三,慎用“推理模型”,它可能是吞金巨兽。像ChatGPT 5 Thinking这种带链式推理的模型,Token消耗极其不可控——它会自动生成中间思考步骤,动辄翻倍成本。RunLLM至今没在生产环境用任何推理模型,而是用Python手写任务拆解:先让小模型判断问题类型,再调工具查数据库,最后用大模型润色答案。虽然代码多了点,但成本可控、结果稳定。毕竟企业场景不需要“通用智能”,只要“精准解决特定问题”。

第四,别急着Fine-tuning,99%的人根本玩不转RL。最近Cursor用强化学习(RL)搞出超快代码补全模型,让很多人以为“微调=降本神器”。但真相是:RL成功的关键不是算法,而是海量带反馈的高质量数据。Cursor能成,是因为每次Tab补全都被用户“接受/拒绝”,形成天然奖励信号;而RunLLM虽有百万问答对,但真实反馈极少——用户很少明确说“这个答案错了”,更多是沉默离开。没有精准反馈,RL就是瞎调参。除非你有专职数据团队+领域专家,否则别碰。

成本之外,别忘了你还能涨价:质量即定价权

所有人都在卷成本,却忽略了更关键的一点:当AI应用真正产生业务价值时,客户愿意付溢价。作者提醒:现在拼技术降本是对的,但别陷入“成本陷阱”。未来只有两类AI产品活下来——要么成本极致低(比如用蒸馏模型做客服),要么质量极致高(比如医疗诊断AI)。后者完全可以定价翻倍。

想想Adobe Firefly:它比开源模型贵十倍,但设计师愿意买单,因为“省下的时间就是钱”。所以,别只盯着OpenAI账单哭,想想你的产品能不能让客户说“这钱花得值”。

总结:推理经济已进入“精打细算”时代

Token成本不再线性下降,而单请求复杂度持续上升——这双重压力正在重塑AI创业逻辑。省钱不是目的,用最少的Token交付最大的客户价值才是王道。与其幻想模型突然变便宜,不如立刻行动:拆解任务链、分层用模型、多供应商压价、谨慎投入RL。记住,RunLLM烧掉的63美元,可能是你明天的账单。