使用RL可以很容易地微调小型模型,使其在垂直任务上优于基础模型。我们正在开源Osmosis-Apply-1.7B:一个比基础模型更好地合并代码的小模型(类似于Cursor的即时应用)。
Osmosis-Apply-1.7B就像个"代码拼图高手",它是在阿里千问Qwen3-1.7B这个大脑基础上特训出来的。它的绝活就是能把两段代码像拼积木一样完美拼接——比如你有一段原始代码(就像乐高底座),又有一段修改建议(就像新的乐高零件),这个AI就能把新零件严丝合缝地插到底座上,自动生成完整的新作品。
就像你写作文时:
- 原始代码:你写好的作文草稿
- 编辑代码:老师用红笔批改的建议
- 这个AI:自动把红笔批改誊抄到草稿上的智能小助手
- 基于Qwen3-1.7B大模型(相当于学霸的脑子)
- 专门训练了代码合并能力(就像重点培训学霸改作文)
- 效果类似VS Code等编辑器里的"应用更改"功能(就像Word里的"接受修订"按钮活了)
训练过程:我们给这个AI“学霸”做了特训,让它看了10万次真实世界的代码修改记录(就像让一个学生反复练习改错题,直到熟能生巧)。
| Model | Latency (ms) | Reward Score | Cost (\$/M tokens in) | Cost (\$/M tokens out) | |
考试成绩对比:
- 普通AI(基础模型):考试得分在 0.77~0.93分(相当于有时候能改对,有时候会出错)。
- 我们的Osmosis-Apply-1.7B:直接考了 0.98分!不仅更准,还便宜10倍,速度快10倍!(就像别人还在用计算器按半天,它已经心算完交卷了!)
评分规则超简单:
- 成功合并代码 → 满分奖励(✓ 做对了,加鸡腿!)
- 格式有点小问题 → 小奖励(✓ 答案对,但字有点丑,勉强给分)
- 完全改错了 → 零分(✗ 改崩了,罚抄10遍!)
额外好处:专门训练的模型更可靠,适合做成工具(比如自动帮程序员改代码的“AI小助手”),不会动不动就“抽风”乱改!
Osmosis-Apply-1.7B-MCP
Osmosis-Apply-1.7B-MCP是使用Osmosis-Apply-1.7B模型应用代码合并的mcp服务器
一个使用Osmosis-Apply-1.7B模型来合并代码编辑的模型上下文协议(MCP)服务器。
- 代码合并:使用Osmosis/Osmosis-Apply-1.7B模型应用编辑
- MCP集成:作为模型上下文协议服务器集成到现有的AI IDE解决方案中
- 文件操作:可以直接就地编辑文件或返回编辑后的代码
作为MCP服务器
CodeMerge可以用作MCP服务器。在您的MCP客户端中配置它:
{ |
MCP工具使用
MCP服务器提供了一个带有以下参数的edit_snippet工具:
- original_code:要编辑的原始代码
- edit_snippet:要应用的编辑,使用// ... existing code ...标记
- file_path:要就地更新的文件的绝对路径
示例工具调用:
{ |
https://huggingface.co/osmosis-ai/Osmosis-Apply-1.7B
极客辣评:
1、哇塞!谢谢!我懂了,这就相当于一堆小特种兵AI一起干活儿对吧?太酷了!
2、你博客里说你们‘禁用了KL散度和熵奖励’(就是通常用来防止AI‘学疯’的刹车片),让AI只盯着‘成功合并代码’这一个目标猛冲——这真的不会练出‘魔怔AI’吗?它不会过度死磕训练数据,反而在实际应用时翻车吗?
3、牛啊!这种小巧专精的模型太实用了!希望有人能批量收养它们,让它们打工!
4、未来就该是‘小模型本地闪电战+大模型远程支援’的黄金组合!比硬上变形金刚(Transformer)那种巨无霸划算多了!
5、不过……如果遇到训练时没见过的奇葩代码(边缘情况),这小模型会不会脑补过度直接‘幻觉发作’乱改啊?
6、小模型+精准管控=性价比之王!