什么是内部Claude Code授权
说白了就是微软给自己员工买的AI编程工具的年票:微软花钱向Anthropic公司买了他们家的AI编程工具Claude Code,然后发给自家几万名员工用。
就像公司给员工买办公软件账号一样。只不过这个账号不是按月付,是按token词元数量计费。员工用得越多,微软付给Anthropic的钱就越多。
事情的来龙去脉是这样:
2025年底,微软开始在公司内部大规模推广Claude Code。他们不光让程序员用,还让设计师、产品经理这些完全不会写代码的人也试试看。目的很简单:想看看AI能不能让更多人参与到写代码这件事里来。
Windows、Office、Teams、Surface这几个核心产品线的工程师,都被要求装上Claude Code同时用。微软内部甚至有61%的开发者觉得,在复杂调试和代码重构这种活上,Claude Code比自家Copilot更靠谱。
然后问题来了:太好用,烧钱太快
Claude Code在微软内部火得一塌糊涂。但麻烦也跟着来了——员工用得太多,token词元账单蹭蹭往上涨。
微软高层一算账,发现这么下去不行。2026年6月30日是微软财年的最后一天,在这个节点前砍掉Claude Code的授权,能直接削减新财年的运营开支。
于是微软内部发通知:大部分Claude Code授权取消,工程师必须在6月底前把工作流迁移到自家的GitHub Copilot CLI。
大公司开始嫌AI太贵了
钱烧得比想象中快得多。微软这种有钱到随便砸钱的公司,这周把自己内部的Claude Code授权给取消了。为啥?因为按token词元算钱的方式太贵了,贵到连他们都觉得不值。优步的技术老大发了个内部通知,说公司四个月就把2026年全年的AI预算花光了。美国AI软件价格涨了两成到三成七,GitHub也要取消包月制,改成用多少付多少。
我的看法很简单:AI有人补贴随便用的好日子,正在结束。
微软嫌别人家的编程工具太贵
连金主爸爸都觉得贵。微软往OpenAI砸了一百三十亿美元,还建了Azure云平台给Anthropic跑计算。结果呢?他们一看竞争对手家编程工具Claude Code的账单,直接说算了不买了。这不是Anthropic做得不够好,不是他们效率低。问题出在计费方式上。
按token词元算钱,逼着每家企业都得面对一个现实:大规模跑这些模型到底要花多少钱。那个数字比大家以前交包月费时猜的要高得多。token词元就是AI模型处理文字时的最小单位,一个英文单词大概占一到两个token词元,中文一个字通常占两到三个token词元。每次你问AI一个问题,AI回答一段话,背后都要消耗成百上千个token词元。
优步四个月花光一年预算
钱跑得比人快。优步技术老大发的内部通知说,公司2026年全年的AI预算,前四个月就烧完了。剩下八个月怎么办?不知道。这就像你月初拿到工资,第一周就花光了接下来四周的饭钱。然后你发现还有房租要交,还有信用卡要还。
这不是优步花钱太大手大脚。是每个员工用AI干活时,那些token词元像水龙头一样哗哗流。你感觉没干啥,账单已经堆成山了。一个程序员让AI帮忙写个函数,AI返回一段代码加几句解释,可能两千个token词元就没了。一天问几十次,几万个token词元就烧掉了。
三家大厂都在涨价
不是一家在涨。Anthropic、OpenAI、谷歌,这三家在过去半年里都提高了实际价格。不是明着涨价,是调整计费方式,或者把便宜套餐砍掉。结果都一样:企业付的钱变多了。
很多公司之前搭建工作流程时,以为AI成本会一直往下降。现在好了,他们眼睁睁看着年度预算在几个月内蒸发。就像你装修房子时以为水泥会降价,结果水泥价格翻倍了,你墙砌到一半没钱了。token词元的单价虽然没有暴涨,但用量涨得太猛,总账单就炸了。
企业只有两条路可以走
两条路,都不好走。第一条路,企业缩减AI使用量,让花销不超预算。但这样AI实验室的收入增长就慢了,它们上市时的估值就撑不住了。第二条路,AI实验室降价,自己承担亏损。但这会让每个单位的赚钱变得更难看,而且是在最不该难看的时候变难看。
这两条路最后走到同一个地方:数字算不过来了,必须有人认亏。你可以把token词元想象成电费。以前一度电一毛钱,大家随便开空调。现在一度电一块钱了,你只能少开空调,或者让电厂亏本卖电。不管选哪个,总有人不舒服。
聪明公司开始找便宜替代品
有人已经找到办法了。像OpenRouter这样的智能代理工具,会把大部分token词元请求自动转给那些顶尖的开源模型。这些开源模型跑起来便宜很多。你的AI助手会先试着用高级模型,如果被限速了,就自动换到中级模型,大部分日常任务用低级模型就能搞定。
这就像你打车。去机场这种重要行程用专车,平时上班用快车,下楼买瓶水走路就行。不是每件事都需要最高配置。OpenRouter做的事情就是帮你判断什么时候该用什么车,然后自动帮你叫,你只管付总价就行。
开源模型能省九成钱
差价大到离谱。有开发团队做了内部测试,发现用DeepSeek这样的开源模型,花十分之一的钱,就能达到前沿模型八成的效果。这个对比结果,现在正在每个公司的财务总监会议上被讨论。
想象一下:你花十块钱买到的token词元,和花一百块买到的token词元,有八成一样好。那你要不要试试?当然要试。企业采购部门已经在跑内部测试了,他们很快就会发现这个秘密。一个任务如果不需要最顶尖的推理能力,用便宜模型完全够了。区别就像你喝咖啡,三十块的手冲和五块的美式,都能提神。
有人认为成本曲线会回头
有人觉得没那么糟。他们说问题只是需求跑得比成本下降快,等技术创新追上来了,问题就解决了。比如更高效的芯片,更好的散热方案,这些都能降低成本。液态散热已经在数据中心铺开了,确实能省一些钱。
但这个说法有个漏洞。每一代新模型,处理每个任务消耗的计算量都比上一代多。散热省下来的钱,跑不过这个增长曲线。这就像你换了一辆更省油的车,但每天要开的路程翻了三倍,油钱还是变多了。处理每个token词元需要的计算量在涨,即使单位计算成本在降,总成本还是可能往上走。
工程师不知道怎么省着用
还有一个大问题:很多人不会用。有团队的人用最贵的模型干最简单的活,比如查个天气也用Opus级别的模型。他们不知道切换低价模型,也不会用技能文件来减少token词元消耗。
这就像你拿杀牛刀去切面包。刀是好刀,但完全没必要。教育成本被严重低估了。公司买了AI工具,但没人教员工怎么省着用、聪明地用。一个简单的优化:把系统提示词写短一点,每次调用就能省几百个token词元。一天几万次调用,省下来的钱就很多了。
代理模式让问题更严重
更麻烦的是代理模式。以前你用AI,问一句它答一句,花一份token词元的钱。现在代理模式为了提升准确率,可能要问五句甚至一千句,花五到一千倍的钱。准确率是高了点,但成本也涨了。
就像你请了个助理。以前你问他一件事,他回答一件事。现在你让他帮你搞定整个项目,他来回确认、查资料、改方案,干了以前一百倍的活。效率是高了,但你要付一百倍的token词元。代理模式会让AI自己调用自己,一个任务触发一连串的模型调用,每个调用都在烧token词元,等任务结束你才发现账单吓死人。
中国模型正在抢市场
中国那边的情况不一样。DeepSeek、GLM、Kimi这些开源模型,价格只有美国前沿模型的十分之一甚至更低。性能虽然不是顶尖,但对大多数企业任务来说,已经够用了。
这就像买手机。你不一定非要买最新款旗舰机,中端机打电话发微信刷视频完全够用,价格便宜一大截。中国企业正在用这个策略,慢慢吃掉美国AI公司的市场份额。他们不追求模型性能第一,追求的是性价比第一。同样的token词元,中国模型能让你跑十次,美国模型只能跑一次。
有人觉得这只是价格发现
还有一派观点认为,这不是危机,是价格发现。以前大家都不知道跑AI到底要花多少钱,现在知道了。那些用得好的公司,会发现即使按token词元付费,AI带来的效率提升还是比花的钱值。
这就像你算账后发现,雇这个员工虽然工资不低,但他帮你赚的钱更多。那你就继续雇。问题是,很多公司还没算清楚这笔账,就先把预算烧光了。价格发现的意思是市场在摸索真实成本,这个过程本身就很痛苦。就像第一次租房的人,不知道水电费一个月要多少,住了两个月才发现账单比自己想象的高很多。
长期来看还是会变便宜
长期来看,价格还是会降的。NVIDIA的硬件加上软件优化,每年能把token词元生成成本降低七成以上。而且AI实验室为了保住市场份额,最终会降价。
但问题在于,你的预算是按年批的,账是按月算的。你在等长期变便宜,但下个月的账单已经来了。这就好比你相信房价长期会跌,但你这个月房租必须交。长期来看变化很大,但财务总监要签字确认下个季度的AI开支,他没法等到天荒地老。
真正重要的不是token词元价格
每个token词元的价格只是一个数字。企业真正该盯着看的,是每个靠谱的结果值多少钱。什么叫靠谱的结果?就是AI给出的答案可以直接用,不用返工,不用人工检查三遍,不会让业务出岔子。
企业需要的是有保障的输出、更少的返工、能审计的流程。一个错误的AI输出,可能让公司损失几万甚至几十万。省下一百块的token词元成本,结果赔了一万块的损失,这种账谁都会算。
在AI输出变成业务行动之前,必须有个清晰的边界。这个边界怎么画,谁来画,画错了谁负责,这些问题比token词元价格本身更关键。而这些问题,现在还远没有答案。所以真正有价值的指标是每次调用能不能产生靠谱的结果,而不是单纯盯着单价看。