这只鸟不讲鸟语,它让AI自己教自己写代码。
你以为是又一款开源模型?错了,这是AI第一次在训练时自己动手改“考卷”的出题思路。当别的模型还在死记硬背标准答案,Ornith已经开始琢磨怎么改考试规则了。它不满足于做解题高手,而是要做那个能随时优化“解题攻略”的狠角色。
模型教自己写“作弊小抄”
以前训练代码模型,工程师们都是先人工定好一套动作流程,比如“遇到bug先查日志,再改代码,最后跑测试”,然后让模型照着这个套路练。这套路一旦定了就不能改,遇到新题型就抓瞎。
Ornith直接把这套老规矩掀了。它搞了个“自己动手写攻略”的强化学习法子。每次练习的时候,模型先琢磨一下:“针对眼下这个活儿,我该怎么调整我的操作清单?”把这个清单优化好了,再照着清单去写代码。
这招狠在哪?别的模型练完就定型了,Ornith是越练越精。它不光在学解题,还在学怎么“组织解题”。好比一个程序员不光在写代码,还在不断优化自己的IDE插件和调试流程,这成长速度能一样吗?
大号鸟和小号鸟的降维打击
这次DeepReinforce放出来的是一窝鸟,从9B的小麻雀到397B的巨嘴鸟全都有。最离谱的是那个35B的版本,按参数量算只是个小弟,但在Terminal-Bench 2.1测试里拿了64.2分,竟然干翻了比自己大十多倍的Qwen 3.5-397B(53.5分)。这感觉就像轻量级拳手一拳把重量级冠军打懵了。
旗舰版397B更是不讲武德,SWE-Bench Verified干到82.4分,Terminal-Bench 2.1拿了77.5分,直接一脚踹翻了Claude Opus 4.7(80.8和70.3)。虽然还打不过Opus 4.8和GLM-5.2那几个怪物,但作为开源阵营,这战绩足够让闭源大佬们后背发凉了。
不怕你作弊,就怕你不够聪明
让AI自己写攻略听着挺美,但万一AI学坏了咋整?比如它发现只要读取隐藏的测试文件就能拿高分,那它肯定就不去写代码了,直接搞歪门邪道。这在强化学习里叫“奖励黑客”,属于业界老大难问题。
DeepReinforce这帮人显然早有防备,直接上了三道锁。最外面一层是硬防火墙,测试环境和工具接口模型压根碰不着。中间有个监控程序,只要发现模型试图偷看文件或者篡改测试脚本,直接零分伺候,连训练数据都进不去。最后一层更绝,安排了一个独立的AI裁判盯着,专门抓那种“虽然没犯规但明显在耍小聪明”的行为。这三板斧下去,基本把作弊的路堵死了。
小麻雀也能上战场
最让人意外的其实是那个9B的小不点。这家伙只有19GB,单张显卡就能跑起来,特别适合在普通电脑或者边缘设备上部署。但它干起活来一点不含糊,SWE-Bench Verified拿了69.4分,直接把参数量大得多的Gemma 4-31B(52.0分)踩在脚下。
社区里已经有老哥在双R9700显卡上跑过了,生成速度大概115t/s,跟Qwen 3.6 35B差不多,但回答质量明显更细致,甚至接近27B模型的水准。这意味着啥?意味着普通开发者在自己电脑上就能跑一个顶级的代码助手,不用再羡慕那些大厂的云端超算。
更让人兴奋的是,这玩意儿对开发者极其友好。直接用vLLM一行命令就能启动服务,接口跟OpenAI完全兼容,现有的OpenCode、OpenHands这些框架拿来就能用。
bash
vllm serve deepreinforce-ai/Ornith-1.0-9B \
--served-model-name Ornith-1.0-9B \
--max-model-len 262144 \
--enable-auto-tool-choice --tool-call-parser qwen3_xml \
--reasoning-parser qwen3 \
--trust-remote-code
python
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")
resp = client.chat.completions.create(
model="Ornith-1.0-9B",
messages=[{"role": "user", "content": "写一个Python的质数判断函数。"}],
temperature=0.6, top_p=0.95,
)
print(resp.choices[0].message.reasoning_content) # 思考过程
print(resp.choices[0].message.content) # 最终答案
鸟枪换炮
说到底,Ornith-1.0这波操作最大的看点不是参数有多大、分数有多高,而是它改变了游戏规则。
过去我们总觉得开源模型就是跟在闭源大佬后面吃灰,人家放点技术出来就能喂饱我们。但这次不一样,Ornith在训练方法上搞出了新东西——让模型自己优化“解题攻略”,这思路本身就够清奇。更要命的是,所有模型都挂的是MIT协议,随便用、随便改、随便商用。这才是真正的“鸟枪换炮”,把顶级的代码能力直接塞到每个开发者手里。
Ornith的"脚手架优化"是在训练一个"知道怎么找答案"的AI。而且这种"优化思考过程"的思路是可以迁移的。不仅编码可以用,数学、逻辑推理、甚至创意写作都可能受益于这种训练方法。
也许未来我们看到的不再是各种"更大的模型",而是各种"思考方式不同的模型"。有的模型擅长深度推理,有的擅长快速响应,有的擅长创意发散——它们的参数可能差不多大,但思考方式的不同决定了它们适合不同的场景。