推理经济已进入“精打细算”阶段：每请求Token暴涨300%

AI推理成本飙升主因是单请求Token消耗激增，企业需分层用模型、多供应商策略、慎用推理与RL，以质量换定价权。

2025年11月14日，两位AI圈重量级人物——Vikram Sreekanti 和 Joseph E. Gonzalez 在 Substack 上发布了《推理经济（下）》。

Joseph 是加州大学伯克利分校 RISELab 的联合创始人，也是 Apache Spark 和 Ray 的核心贡献者之一，在分布式系统和 AI 推理领域堪称教科书级别的人物；
Vikram 则是 RunLLM 的联合创始人兼 CEO，这家公司专注于为企业提供基于大模型的实时问答和知识管理系统。
他们不是在“预测未来”，而是在用每天烧掉的真金白银告诉你：AI 应用的经济逻辑，正在发生根本性逆转。

Token需求暴涨，不是因为用户多了，而是每个请求都在“吃大户”

很多人以为AI成本飙升是因为用户暴增，但真相更扎心——每个请求消耗的Token数量在飙升。这不是量变，是质变。

过去你问一个问题，模型答一句，几十个Token搞定；现在呢？为了确保回答精准，系统先用向量搜索捞出100条文档，再用LLM逐条判断相关性，接着合成摘要，最后才生成答案。这一套流程下来，动辄上千Token。

RunLLM 团队甚至自嘲：“计算机科学的解决方案是加一层抽象，AI的解决方案是再调一次LLM。” 这句话看似玩笑，实则血泪——他们上个月一次内部调查，不小心烧掉了63美元！就一次！相当于普通人一个月的API预算。

为什么非得用这么多Token？因为“质量”成了生死线

你以为用户只在意快？错。用户要的是对的答案。

而要让LLM答对，关键在于“上下文的质量”。

早期大家迷信向量搜索，后来发现纯向量匹配经常跑偏，于是纷纷回归关键词搜索；但关键词又太粗暴，于是又引入LLM做“reranking”（重排序）——让模型自己判断哪条信息更相关。

微软的 Vik Singh 早在两年前就预言：“如果LLM够快，为什么不直接用它做高级语义搜索？” 现在，这个预言成真了，代价就是Token消耗翻倍再翻倍。

RunLLM 的系统里，数据在进入主模型前，已经被LLM预处理、过滤、打标、分类好几轮。没有这些“前置LLM”，根本无法交付企业客户要求的高精度结果。

数据中心狂建背后，是每个AI产品都在“堆Token”

别以为NVIDIA股价疯涨只是因为训练芯片，推理端的需求才是真正的无底洞。

全球科技巨头疯狂建数据中心，表面看是应对用户增长，实则是为“每请求Token数”的指数级上升买单。

作者直言：这个趋势不会停。哪怕推理变便宜（他们对此表示怀疑），只要AI深度嵌入工作流，单次任务的复杂度只会越来越高。RunLLM 团队手里有一堆“再加一层LLM就能更准”的点子，但全被成本和延迟卡住。换句话说，不是技术做不到，是钱包不答应。

省Token不是抠门，是生存技能：四大实战策略曝光

既然Token注定越用越多，那怎么用才不破产？作者基于RunLLM的实战经验，总结出四条血泪教训：

第一，别迷信大模型，小模型才是省钱神器。不是所有任务都需要GPT-5。比如过滤垃圾问题、合并日志、初筛文档——这些活儿用GPT-4.1 Mini或开源小模型（如Phi-3、Qwen-Max）完全够用。他们测试发现，用小模型做前置过滤，能减少70%的大模型调用。关键不是“用最好的”，而是“用最合适的”。可惜目前没有万能公式，只能靠任务级评估框架反复试错。

第二，别把鸡蛋放一个篮子，多供应商策略是护城河。虽然现在各家模型API越来越“封闭”（比如OpenAI的function calling格式和其他家不兼容），但DSPy这类新兴工具能自动优化提示词，大幅降低切换成本。作者建议：至少保持2-3家备用供应商。比如常规任务用Anthropic，批量处理用Google的batch mode，紧急时切回OpenAI。当然，金融或医疗客户要小心数据合规问题——多一个供应商，就多一层审计麻烦。

第三，慎用“推理模型”，它可能是吞金巨兽。像ChatGPT 5 Thinking这种带链式推理的模型，Token消耗极其不可控——它会自动生成中间思考步骤，动辄翻倍成本。RunLLM至今没在生产环境用任何推理模型，而是用Python手写任务拆解：先让小模型判断问题类型，再调工具查数据库，最后用大模型润色答案。虽然代码多了点，但成本可控、结果稳定。毕竟企业场景不需要“通用智能”，只要“精准解决特定问题”。

第四，别急着Fine-tuning，99%的人根本玩不转RL。最近Cursor用强化学习（RL）搞出超快代码补全模型，让很多人以为“微调=降本神器”。但真相是：RL成功的关键不是算法，而是海量带反馈的高质量数据。Cursor能成，是因为每次Tab补全都被用户“接受/拒绝”，形成天然奖励信号；而RunLLM虽有百万问答对，但真实反馈极少——用户很少明确说“这个答案错了”，更多是沉默离开。没有精准反馈，RL就是瞎调参。除非你有专职数据团队+领域专家，否则别碰。

成本之外，别忘了你还能涨价：质量即定价权

所有人都在卷成本，却忽略了更关键的一点：当AI应用真正产生业务价值时，客户愿意付溢价。作者提醒：现在拼技术降本是对的，但别陷入“成本陷阱”。未来只有两类AI产品活下来——要么成本极致低（比如用蒸馏模型做客服），要么质量极致高（比如医疗诊断AI）。后者完全可以定价翻倍。

想想Adobe Firefly：它比开源模型贵十倍，但设计师愿意买单，因为“省下的时间就是钱”。所以，别只盯着OpenAI账单哭，想想你的产品能不能让客户说“这钱花得值”。

总结：推理经济已进入“精打细算”时代

Token成本不再线性下降，而单请求复杂度持续上升——这双重压力正在重塑AI创业逻辑。省钱不是目的，用最少的Token交付最大的客户价值才是王道。与其幻想模型突然变便宜，不如立刻行动：拆解任务链、分层用模型、多供应商压价、谨慎投入RL。记住，RunLLM烧掉的63美元，可能是你明天的账单。

推理经济已进入“精打细算”阶段：每请求Token暴涨300%

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道