AI大语言模型、AGI

开源模型Ornith-1.0发布：让AI自己写训练攻略，9B小模型干翻31B

#大语言模型LLM #GitHub工具库推荐 #本地小语言模型

2026-06-28 3K banq

这只鸟不讲鸟语，它让AI自己教自己写代码。

你以为是又一款开源模型？错了，这是AI第一次在训练时自己动手改“考卷”的出题思路。当别的模型还在死记硬背标准答案，Ornith已经开始琢磨怎么改考试规则了。它不满足于做解题高手，而是要做那个能随时优化“解题攻略”的狠角色。

模型教自己写“作弊小抄”

以前训练代码模型，工程师们都是先人工定好一套动作流程，比如“遇到bug先查日志，再改代码，最后跑测试”，然后让模型照着这个套路练。这套路一旦定了就不能改，遇到新题型就抓瞎。

Ornith直接把这套老规矩掀了。它搞了个“自己动手写攻略”的强化学习法子。每次练习的时候，模型先琢磨一下：“针对眼下这个活儿，我该怎么调整我的操作清单？”把这个清单优化好了，再照着清单去写代码。

这招狠在哪？别的模型练完就定型了，Ornith是越练越精。它不光在学解题，还在学怎么“组织解题”。好比一个程序员不光在写代码，还在不断优化自己的IDE插件和调试流程，这成长速度能一样吗？

大号鸟和小号鸟的降维打击

这次DeepReinforce放出来的是一窝鸟，从9B的小麻雀到397B的巨嘴鸟全都有。最离谱的是那个35B的版本，按参数量算只是个小弟，但在Terminal-Bench 2.1测试里拿了64.2分，竟然干翻了比自己大十多倍的Qwen 3.5-397B（53.5分）。这感觉就像轻量级拳手一拳把重量级冠军打懵了。

旗舰版397B更是不讲武德，SWE-Bench Verified干到82.4分，Terminal-Bench 2.1拿了77.5分，直接一脚踹翻了Claude Opus 4.7（80.8和70.3）。虽然还打不过Opus 4.8和GLM-5.2那几个怪物，但作为开源阵营，这战绩足够让闭源大佬们后背发凉了。

不怕你作弊，就怕你不够聪明

让AI自己写攻略听着挺美，但万一AI学坏了咋整？比如它发现只要读取隐藏的测试文件就能拿高分，那它肯定就不去写代码了，直接搞歪门邪道。这在强化学习里叫“奖励黑客”，属于业界老大难问题。

DeepReinforce这帮人显然早有防备，直接上了三道锁。最外面一层是硬防火墙，测试环境和工具接口模型压根碰不着。中间有个监控程序，只要发现模型试图偷看文件或者篡改测试脚本，直接零分伺候，连训练数据都进不去。最后一层更绝，安排了一个独立的AI裁判盯着，专门抓那种“虽然没犯规但明显在耍小聪明”的行为。这三板斧下去，基本把作弊的路堵死了。

小麻雀也能上战场

最让人意外的其实是那个9B的小不点。这家伙只有19GB，单张显卡就能跑起来，特别适合在普通电脑或者边缘设备上部署。但它干起活来一点不含糊，SWE-Bench Verified拿了69.4分，直接把参数量大得多的Gemma 4-31B（52.0分）踩在脚下。

社区里已经有老哥在双R9700显卡上跑过了，生成速度大概115t/s，跟Qwen 3.6 35B差不多，但回答质量明显更细致，甚至接近27B模型的水准。这意味着啥？意味着普通开发者在自己电脑上就能跑一个顶级的代码助手，不用再羡慕那些大厂的云端超算。

更让人兴奋的是，这玩意儿对开发者极其友好。直接用vLLM一行命令就能启动服务，接口跟OpenAI完全兼容，现有的OpenCode、OpenHands这些框架拿来就能用。

bash
vllm serve deepreinforce-ai/Ornith-1.0-9B \
    --served-model-name Ornith-1.0-9B \
    --max-model-len 262144 \
    --enable-auto-tool-choice --tool-call-parser qwen3_xml \
    --reasoning-parser qwen3 \
    --trust-remote-code

python
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")
resp = client.chat.completions.create(
    model="Ornith-1.0-9B",
    messages=[{"role": "user", "content": "写一个Python的质数判断函数。"}],
    temperature=0.6, top_p=0.95,
)
print(resp.choices[0].message.reasoning_content)  # 思考过程
print(resp.choices[0].message.content)            # 最终答案

鸟枪换炮

说到底，Ornith-1.0这波操作最大的看点不是参数有多大、分数有多高，而是它改变了游戏规则。

过去我们总觉得开源模型就是跟在闭源大佬后面吃灰，人家放点技术出来就能喂饱我们。但这次不一样，Ornith在训练方法上搞出了新东西——让模型自己优化“解题攻略”，这思路本身就够清奇。更要命的是，所有模型都挂的是MIT协议，随便用、随便改、随便商用。这才是真正的“鸟枪换炮”，把顶级的代码能力直接塞到每个开发者手里。

Ornith的"脚手架优化"是在训练一个"知道怎么找答案"的AI。而且这种"优化思考过程"的思路是可以迁移的。不仅编码可以用，数学、逻辑推理、甚至创意写作都可能受益于这种训练方法。

也许未来我们看到的不再是各种"更大的模型"，而是各种"思考方式不同的模型"。有的模型擅长深度推理，有的擅长快速响应，有的擅长创意发散——它们的参数可能差不多大，但思考方式的不同决定了它们适合不同的场景。