这是一个帮你省钱的开源工具:把Claude Code的脑子换成DeepSeek V4 Pro,省下17倍成本。身体(工具链、文件编辑、bash执行)完全不变,agent自动循环照跑不误。适合写代码修bug,但不支持图片识别和多工具并行。
这个deepclaude项目干了一件特别贼的事。它不是重新发明轮子,而是把Claude Code这个超级贵的自动化程序员,它的脑子挖出来,换成一个便宜的脑子,然后所有干活的手脚、工具、流程原封不动照跑。结果就是同样的效果,钱只花原来的十七分之一。
你想象一下,你雇了一个顶级程序员,月薪20万,干活贼利索。然后你发现有个刚毕业的大学生,月薪1万多点,干的活八成像,偶尔几个复杂问题搞不定。那你怎么办?你就让那个顶级程序员主导,遇到复杂问题他亲自上,其他时候让大学生顶班。
deepclaude就是这么干的,只不过换成了Claude Code和DeepSeek模型之间的配合。
为什么会有人想换脑子
Claude Code这个东西本身很牛。它不是那种你问一句它答一句的聊天机器人,它是一个能自己跑完整开发流程的智能体。你跟它说"帮我修一下登录页面的bug",它会自己去读代码,找到问题在哪,改代码,跑测试,发现测试没过就再改,直到搞定。这一整套"看任务-拆步骤-执行-检查-调整-继续"的循环,才是它真正值钱的地方。
问题是这个循环跑起来很烧钱。Claude Code背后用的是Anthropic的模型,那个模型定价是按token算的,输出一百万个token要15美金。你让它改一个稍微复杂点的bug,它可能要读好几万行代码,来回折腾几十次,一顿操作下来钱就哗哗往外流。
DeepSeek V4 Pro就不一样了。它在编码类任务上的评分达到96.4%,基本跟Claude Opus差不多水平,但它的输出价格只要0.87美金每百万token。差了多少?差不多17倍。你花一块钱,原来只能让Claude Code干一天的活,现在能让它干十七天。
所以你就能理解为什么有人想搞这个换脑子的操作了。不是Claude不好,是它太贵。不是DeepSeek更强,是它性价比爆炸。
这个项目到底改了啥
很多人一看这个描述,以为就是个换API接口的小脚本,没啥技术含量。但你仔细看它的设计,它动的是整个三层架构里的核心一层。
第一层,也是最外面那一层,是Claude Code的执行系统。这一层包括文件读写、bash命令执行、git操作、全局搜索、子任务派发、多步工具循环。这些东西全都留在原地没动,因为这一层的价值在于它已经把一个智能体需要的所有工具都集成好了,并且形成了一个稳定的自动循环。你换掉这一层就等于重新造轮子,那就不值当了。
第二层,是大脑层,也就是做决策的那个模型。原本这一层跑的是Anthropic的Claude模型,现在被替换成了DeepSeek V4 Pro,或者通过OpenRouter接进来的其他兼容Anthropic API格式的模型。这一层的核心功能是理解任务、拆解步骤、决定下一步调用哪个工具、根据执行结果调整策略。换掉这一层,整个智能体的"思考方式"就变了,但身体还是在按原来的节奏干活。
第三层是个通道层,用来骗过Claude Code。Claude Code这个软件写死了要调用Anthropic的API接口,你不能直接让它去调DeepSeek。所以项目中间架了一层代理,Claude Code发起请求的时候,它以为自己是在跟Anthropic服务器说话,实际上这个请求被转发到了DeepSeek或者OpenRouter。有点像你打电话给前台,前台没转给老板,而是转给了另一个专家,但你以为自己一直在跟老板说话。
这个换脑子的操作怎么实现
具体操作其实不复杂,但有几个关键点你得知道。
首先你得装好Claude Code本身。这个官方有安装脚本,一路下一步就行。装完之后它默认会去找Anthropic的API密钥,你要是不改,那就还是走官方的高价路线。
然后你要配置环境变量。deepclaude的做法是让你把Anthropic的API地址改成一个本地代理地址,比如改成localhost:8080。这样Claude Code发出的所有请求就会先打到这个代理上。
代理这边要做的事情是接收Anthropic格式的请求,然后把里面的参数翻译成DeepSeek能理解的格式。这里有个坑要注意,Anthropic和DeepSeek的API格式不完全一样,比如消息结构、工具调用字段的名字、返回格式都有差异。如果你直接原封不动转发,DeepSeek那边会报错。所以代理层要做一层格式转换。
转换完之后,代理把请求发给DeepSeek的API,拿到返回结果,再反向翻译回Anthropic的格式,塞回给Claude Code。整个过程对Claude Code是完全透明的,它根本不知道自己的脑子已经被换了。
你可以在命令行里这样启动:
export ANTHROPIC_API_KEY=your-deepseek-key
export ANTHROPIC_BASE_URL=http://localhost:8080
然后直接运行claude命令,它就开始用DeepSeek的脑子干活了。
为什么能省17倍钱
省钱的核心逻辑特别简单,就是因为大模型这东西是按使用量收费的,而不同模型之间的单价差距巨大。
你算一笔账就明白了。假设你让Claude Code跑一个任务,需要输入50万个token,输出10万个token。用Anthropic的Claude Opus,输入价格大概是每百万token 15美金,输出也是15美金左右。那这个任务就是15乘0.5加上15乘0.1,等于9美金。
换成DeepSeek V4 Pro,输入价格大概是每百万token 0.27美金,输出0.87美金。同样50万输入和10万输出,总成本是0.27乘0.5加上0.87乘0.1,等于0.135加0.087,总共0.222美金。9美金对比0.222美金,刚好差了40倍多一点。官方说17倍是个保守估计,实际上可能省得更多。
这里还要注意一个事,Claude Code在运行的时候不是一次调用就完事的。它会在agent循环里反复调用模型,完成一个任务可能需要几十次甚至上百次API请求。所以单次调用的成本差距会被放大几十倍,最终省下来的钱就是个很恐怖的数字了。
什么能跑什么不能跑
这个方案不是完美的,有几个关键坑你得知道。
第一,图片识别完全不能用。DeepSeek的Anthropic兼容接口不支持多模态输入,也就是说你不能给它看截图、UI设计图、手绘流程图这些东西。Claude Code本身也很少用到图片功能,所以影响不算大,但如果你习惯用截图跟AI沟通,这个习惯就得改改了。
第二,并行工具调用被禁用了。Claude原生支持一次思考后同时调用多个工具,比如同时读三个文件,这样可以大幅加快速度。但通过兼容层转发之后,这个能力就丢了,工具只能一个一个顺序执行。对于很多任务来说影响不大,但如果你的任务需要大量IO操作,速度会明显变慢。
第三,MCP服务器的工具不支持。MCP是Anthropic搞的一个工具协议,允许你把外部服务挂载成Claude Code可以调用的工具。通过兼容层之后,这些工具就认不出来了。
第四,提示词缓存的优化没了。Anthropic官方支持一种缓存机制,可以让你在长对话里重复利用之前的计算结果,省掉重新计算的成本。DeepSeek有自己的缓存机制,是自动的,但你没办法手动控制。所以如果你特别依赖精细的缓存策略,这个方案就不太适合。
真实效果怎么样
从各路反馈来看,日常的开发任务,大概八成的场景,DeepSeek V4 Pro的表现跟Claude Opus差不多。写代码、改bug、重构、写测试、解释代码逻辑,这些事情它都干得挺好。代码生成的质量、上下文理解能力、多步推理的连贯性,基本在一个水平线上。
但是剩下那两成比较复杂的任务,比如需要多轮复杂的工具调用、需要精细的规划能力、需要处理非常长的上下文并且准确记住早期细节,Claude Opus还是要强一些。这不是说DeepSeek不行,而是Claude在这个领域确实是天花板级别的存在。
所以比较务实的用法是混合策略。日常的简单任务让DeepSeek跑,反正省钱的。遇到特别复杂的、反复跑不通的任务,你可以切回Anthropic的原生接口。这个切换只需要改一下--backend参数就行。这种主备模式既省了大部分钱,又保证了关键时刻不掉链子。
可能遇到的麻烦事
换脑子这个操作虽然听起来很酷,但实际操作中可能会遇到几个烦人的问题。
第一个问题是工具调用格式偶尔会跑偏。DeepSeek在被训练的时候,不是专门针对Claude Code的工具格式做优化的,所以在生成工具调用的时候,偶尔会输出一些格式不太标准的内容。比如它可能忘了把工具名字写成字符串,而是写成了带引号的什么东西。或者参数的顺序不对。这些问题会导致Claude Code那边解析失败,然后整个agent循环就断掉了。
第二个问题是长任务的稳定性会弱一些。Claude Code在跑那种需要十几步甚至几十步的任务时,如果背后用的是Anthropic的原生模型,整个链条会非常稳定。换成DeepSeek之后,可能跑到第15步的时候,模型突然开始胡言乱语,或者重复输出同样的内容,或者直接卡住不干活了。这种情况发生频率不高,但确实存在。
第三个问题是推理风格的不同。Claude的推理过程比较结构化,一步一步推进得很有条理。DeepSeek在某些任务上会显得跳跃一些,有时候会跳过一个看起来很简单但实际上很重要的步骤。这倒不是说它能力不行,而是两种模型在训练数据和方法上的差异导致的。
适合谁用
如果你是个独立开发者,或者在一个小团队里,每天要写大量代码,但预算有限,那这个方案就非常适合你。每个月花在API上的钱可以从几百美金降到几十美金,体验基本没差。
如果你是在做AI编程工具的研究,想对比不同模型在agent场景下的表现,这个方案也很有用。你可以很方便地切换底层模型,看同一个任务在不同模型上的表现差异,然后针对性地做优化。
如果你是个大公司的开发团队,对稳定性要求极高,任务复杂程度也很大,那可能就不太适合全量切过去。但你可以在非核心任务、低风险场景下先试点,比如代码重构、文档生成、测试用例编写这些事,让DeepSeek来干,省下的钱留着给核心任务用Claude。
如果你需要处理多模态任务,比如看图写代码、UI截图转前端代码,那这个方案就完全不能用了,老老实实走官方接口吧。
总结一下这个事的本质
DeepClaude就是做了一个换脑手术:用DeepSeek V4 Pro替换Claude Code的推理引擎,保留完整智能体循环,成本降到十七分之一。适合所有写代码agent任务,不适合多模态和高稳定性生产场景。有两个小坑:工具调用偶尔跑偏、并发能力稍弱。但划算到可以忍。
deepclaude这个项目,本质上做的不是一个"AI工具",而是"模型替换适配层"加"成本优化策略"。它的核心创新不在于发明了什么新技术,而在于识别出了Claude Code这个系统里,哪些部分是不可替换的核心资产,哪些部分是价格敏感可替换的组件。
不可替换的是那个自动化的agent执行引擎,是文件读写、bash执行、工具循环、子任务派发这一整套流程。这套东西是经过大量工程打磨的,你自己从头实现一遍可能要花几个月甚至几年。
可替换的是那个做决策的大模型。只要模型的API格式能适配,工具调用能力跟得上,代码能力不差太多,换上任何一个模型都能跑。DeepSeek恰好在这几个维度上的表现跟Claude很接近,但价格便宜得离谱。
所以这个项目的本质就是保留核心资产,替换价格敏感组件,通过一个轻量级的适配层把它们粘在一起,最终实现成本大幅下降但功能基本不变。这种思路在很多工程领域都适用,只不过这次用在了AI agent这个比较新的领域上。