开源Weave Router：直接在Claude Codex和Cursor中智能模型路由

#AI智能体Agent #GitHub工具库推荐 #Proxy代理模式教程 #API网关代理

2026-06-27 1 4K banq

Weave Router（GitHub: workweave/router）是一个“LLM 请求路由层”工具，本质是一个放在大模型 API 前面的代理（proxy），用来自动决定每个请求该用哪个模型。

机器管家替你做主：该让哪个AI写代码更省钱

Weave团队用AI写代码，结果Opus 4.7一改分词器，账单直接飞起。他们意识到不能所有活儿都让最强大脑干，但又不想关键时刻掉链子，于是造了个路由器。

这东西插在Claude Code、Codex、Cursor这些编程助手前面，自动把请求发给最合适的模型。

自己用了大概一个月，省了百分之四十的token开销，质量速度还没啥区别。路由器的路子是用强化学习，在成千上万个代理轨迹上练出来的，谁完成任务就奖励谁。现在源代码用Elastic License 2.0授权，你可以自己托管，也可以直接用他们网站的服务。

路由器替你把关哪个AI干活

这个叫Weave Router的家伙，本质上就是个大模型API门口的智能门卫。它假装自己是Anthropic或者OpenAI的接口，专门伺候那些编程代理。每个推理请求进来，它都要瞅一眼，然后动脑子决定该派哪个模型上阵，还得负责翻译不同模型之间的暗号。这么一来，简单活儿就能让DeepSeek v4、GLM 5.2、Kimi K2.6这些又快又便宜的家伙去干，碰到硬骨头再请Opus 4.8、GPT 5.5这种顶尖高手出马，连那个神出鬼没的Fable回来也算上。

你看那些coding agent干活，就像派了一堆小弟去翻代码库找线索，这种跑腿活儿根本不用杀鸡用牛刀。路由器心里门儿清，知道哪些任务耗脑子，哪些就是个体力活。比如你要规划一个牵一发动全身的大改动，它大概会把活儿派给Opus 4.8这种战略大师。要是小弟们去代码库里东翻西找搜集上下文，就让他们用DeepSeek V4 Flash这种跑得快又不贵的。等计划整好了开始动手实现，大概率就交给GLM 5.2这种执行效率高的去干。这不就像工地上的包工头，砌墙的活儿让瓦工干，绑钢筋的活儿让钢筋工干，谁也别闲着，谁也别累着。

这帮人自己先用上了，一个月下来省了四成token开销。关键是质量没掉链子，速度也没拖后腿。你想啊，他们公司本身就是搞工程效率量化分析的，要真把活儿干砸了，那不是砸自己招牌嘛。所以他们敢拍胸脯说，代码出的bug没多，返工率没涨，速度还往上走了走。

路由器脑子怎么长的

这路由器可不是傻乎乎地看提问长短来分活儿。它肚子里装了个轻量级ONNX模型做embedding，能把每个请求映射到不同的任务簇里头去。简单补全、中等推理、高难度烧脑题，它分得门儿清。但真正厉害的地方在于，它不是只盯着质量看，而是搞多目标优化。成本、延迟、输出啰嗦程度、质量够不够用，这些它都得掂量。最终挑那个能让质量达标，同时又最便宜跑得最快的模型。

训练这家伙用的是强化学习，喂了成千上万条真实代理干活儿的记录。路由器每选一个模型去干活，干成了就有奖励，干砸了就没糖吃。这么一来二去，它就慢慢摸清了什么活儿该找什么人。这小子的判断可不是瞎蒙，它会看整个提示词和之前的对话上下文，用embedding把问题归类，再根据历史经验判断哪个模型对付这类问题最拿手。最逗的是，它还会汲取教训。要是某个小模型在某种任务上老翻车，路由器就会记黑账，下次尽量不让它碰这活儿。

当然，这玩意儿也不是算无遗策，万一选错了人也没关系。它兜里还揣着备胎方案，发现小模型卡住了，会立刻叫个大模型来救场。就像你让实习生去干个活儿，他干到一半不会了，马上就有老师傅接手，不至于把整个项目拖黄了。

专治各种换模型烧钱

以前大家用AI写代码，最简单的办法就是逮着一个最牛X的模型用到地老天荒。这么做省心是省心，但钱包真心扛不住。尤其现在这些模型公司三天两头改算法，就像Opus 4.7那次改了分词器，同样的代码愣是多算出一堆token来，账单直接膨胀。很多公司一算账，发现搞AI编程的成本都快赶上雇几个初级程序员了。

Weave这帮人琢磨出一个道理，很多活儿根本就不值得动用最强大脑。比如让AI帮你改个变量名，格式化一下代码，或者补全个括号，这种事儿杀鸡用牛刀，纯粹是烧钱玩儿。但你又不能一刀切全用便宜模型，万一碰到真需要推理能力的时候，便宜模型给你瞎编一通，回头debug的时间成本可能比省下的token还贵。所以他们要的不是选最好的模型，而是选性价比最高的模型。

这路由器装上去之后，它会在每个请求上动脑筋，判断这活儿到底值不值得请大腕儿。结果就是，你花在AI上的钱变少了，但活儿干得还是一样利索。这帮人说省了四成开销，搁谁谁不心动。很多大公司没有补贴价，都是按API原价付费，AI用多了那个账单看得人心惊肉跳。一个路由器能把钱省下来，又不耽误进度，这不就是老板们最爱听的故事嘛。

缓存这件事被玩明白了

这路由器有个特别鸡贼的设计，就是它懂什么叫缓存。用过AI编程的都知道，API调用的缓存是个省钱的大杀器。你连续跟同一个模型聊天，前面说过的话都被缓存了，后面的请求只需要花很少的钱就能续上。但一旦你换了模型，缓存就废了，所有上下文得重新传一遍，那可都是白花花的银子。

很多搞模型路由的人压根儿没想过这事，他们只看到眼前的请求该归谁，不管之前跟谁唠过磕。这么干看起来每次可能省了点，但算上重建缓存的成本，搞不好还更贵了。Weave这个路由器就聪明在这儿，它是有状态的，会记住当前会话在用哪个模型。一旦确定了一个模型，它就不会随便换人，除非换模型的收益明显大于丢失缓存的损失。

这帮人说，在实际使用中，一个典型的代理主循环大概就用到一到三个模型，具体看情况。但那些子代理就灵活多了，因为每个子代理都有自己全新的上下文窗口，互相不干扰，所以路由起来自由度更大。所以路由器做决策的时候，会把换模型的代价算进去，第一次选模型特别关键，但如果用户的提问突然转了方向，该换还得换。

自托管还是抱大腿随你挑

这路由器有两种玩法，一种是自己搭，一种是直接用他们的云服务。自己搭的话，一行命令就搞定了，用那个npm包跑个本地服务就行。这么做的好处是所有数据都不出你的机器，隐私安全绝对放心。你用自己的API key，想接哪个模型接哪个，完全自己说了算。对于那些对数据安全有洁癖的公司，或者想在自己VPC里折腾的团队，这条路很合适。

另一种就是直接用他们托管的版本，连安装部署都省了。他们帮你打理OpenAI、Anthropic、Gemini、OpenRouter这些接口，统一计费，还给你个仪表盘看各种指标。很多客户选这条路，反正本来就信得过这帮人，交出去的敏感数据也不差这一桩。不管选哪种，你都可以在Claude Code、Codex、Cursor、opencode这些工具里把base URL一改，路由器就开始干活了。

最重要的是，这玩意儿用起来不会把你锁死在一个模型上。你可以继续用你最顺手的那几个模型，路由器只是在背后默默帮你优化成本。哪天你觉得它选得不对，随时可以手动干预，或者干脆不用。这种你随时可以踹开的感觉，反而让人敢放心用。

这事儿到底值不值得折腾

肯定有人说，我习惯了手动切模型，或者我就认准一个模型用到底，干嘛要多加这一层。这话没毛病，对于那些单一模型就能搞定的小项目，或者对延迟要求特别变态的实时场景，加个路由器确实有点画蛇添足。但对于那些天天跟AI编程助手泡在一起，一跑就是几十轮对话的重度用户来说，这玩意儿就像发现新大陆。

那些公司里的工程领导现在最头疼的就是AI账单。Uber的COO都出来公开吐槽过token花得太猛了。这帮人搞了个路由器，让每块钱都花在刀刃上，能不香吗。还有人担心，你路由器再聪明，能有人聪明吗。我手动切模型的时候，会根据模型特点调整提示词，路由器能懂这个吗。这个问题问到点子上了，这帮人的回答也挺逗，说影响路由效果的主要是工具链本身，而不是具体哪个模型。同样一个GPT 5.5，在Claude Code里表现得更像Claude，在Codex里又像Codex了，这东西不好量化，但用了一个月感觉确实如此。

还有人说，你这么换来换去，把缓存都搞没了，省的钱还不够填坑的。但这路由器本身就是冲着解决这问题来的，它知道什么时候该换，什么时候不该换。别人踩过的坑它都绕着走了，所以人家才敢说省了四成。未来的趋势肯定是大模型公司自己也会做类似的东西，但他们没有动机把流量往别的模型引啊。Anthropic怎么可能鼓励你把Claude Code的流量导给DeepSeek，那不是砸自己饭碗嘛。所以这事还得第三方来干。

总结

Weave Router让AI编程助手学会看人下菜碟，用强化学习给每个请求挑最合适的模型，连缓存损耗都算进去了，省了四成token还不耽误活儿。