一款名为Qwable-v1的开源模型横空出世,它自称是从Anthropic的顶级模型Claude Fable-5中蒸馏而来。开发者仅用公开的4659条思维链痕迹和一张H200显卡训练了14个小时。社区对此反应两极分化,有人兴奋有人嘲讽,认为这只是个参数调得不好的玩具。
Fable 5:一场持续四天的疯狂派对
Anthropic公司在2026年6月9日那天悄悄放出了他们的王牌模型Claude Fable-5。可是这场狂欢只持续了四天,到了6月12日,美国出口管制部门直接出手叫停了Fable-5的全球访问权限。
对于普通用户来说,这就像好不容易抢到的限量版球鞋突然被官方收回。但对于开源社区的狂热分子来说,这四天窗口期就是天赐良机。有人立刻开始疯狂调用API,试图把Fable-5的思维链痕迹全部抓取下来。Anthropic在API里内置了一个反蒸馏分类器,这个工具会实时屏蔽模型的思考过程,只输出处理后的结果。
Fable 5被Anthropic称为当时最强大的模型,这话说出来是有数据支撑的。SWE-bench Pro跑到80.3%,这个分数在软件工程任务上已经相当能打。定价每百万输出token收50美元,属于旗舰型号的标配价位。但真正让这模型特殊的地方在于,它只活了四天。从2026年6月9日上线,到6月12日被全球暂停,中间隔着不到96个小时。美国出口管制指令是直接原因,这类高性能AI模型一旦触及某些技术阈值,就会被监管系统盯上,然后迅速下架。
这四天里发生的事情很有意思。Anthropic在API里加了一层反蒸馏分类器,专门用来拦截思维链内容的输出。这意味着你问模型一个问题,它怎么一步步推理出来的那些内部思考过程,会被系统实时审查并删除掉。设计这个机制的目的很明确,防止别人用API输出来训练自己的模型。但问题在于,这套防护系统并没有做到滴水不漏。
Glint-Research发布了一个名为Fable-5-traces的数据集,里面包含的明文思维链轨迹成了后续蒸馏工作的核心素材。这些数据能够突破防护层流出来,说明反蒸馏机制在实际运行中存在漏洞。要么是某些请求绕过了检测,要么是分类器的规则不够完善,总之那四天里有人成功拿到了足够多的训练数据。
Qwable-v1的发布者lordx64把这些轨迹重新打包,用在Qwen3.6-35B-A3B上做了蒸馏训练。硬件配置是单张H200,用时大约14个小时。这个时间投入对于一个蒸馏项目来说算是相当紧凑的,也侧面说明了训练数据的规模并不大。
模型发布后附带了一系列GGUF量化版本,包括IQ4_XS、Q4_K_M、Q5_K_M和Q8_0,同时在Hugging Face上公开了SFT数据集。许可证沿用上游的AGPL-3.0。从发布内容来看,该有的组件基本都齐了,模型权重、量化文件、训练数据都放了出来。
Qwable-v1训练配置暴露的技术缺陷
lordx64这位开发者拿着这批公开痕迹,选择了Qwen3.6-35B-A3B作为基底模型。他用了大约14个小时,在单张H200显卡上跑完了蒸馏训练。这张显卡在AI训练圈算得上高级玩具,但跟大公司动辄几百张H100的算力集群比起来,这配置就像用家用烤箱对抗工业流水线。
TheRealMasonMac在评论里对训练配置做了详细拆解,指出了多个技术问题。首先,训练是从作者自己之前的Opus蒸馏模型继续微调的,没有把两个数据集合并在一起使用。这种做法会累积灾难性遗忘,模型在学习新数据的同时逐渐丢失之前学到的内容。
LoRA的秩和alpha都设成了16。对于蒸馏任务来说,这个配置通常只适合对模型现有分布做细微调整,比如改改输出风格之类的事情。按常规经验,小秩下alpha应该设为秩的两倍。把这两个参数都设成一样的值,等于限制死了模型能从新数据里学到多少东西。
目标模块也没有覆盖所有理想选项,进一步压缩了模型的学习空间。学习率用的是2e-5,这个值通常用于全参数微调,LoRA场景下一般建议放大到2e-4左右。用偏低的学习率会让训练过程变慢,但在这个案例里更致命的问题是,低学习率搭配小秩,模型根本来不及从四千多条样本里吸收足够的信息就已经收敛了。
序列长度限制在4096个token。如果大部分训练样本都超过这个长度,就会被截断,丢失掉思维链后半段的内容。蒸馏的核心就是要保留原始模型的推理过程,截断之后还剩下什么就很难说了。
整个训练在单个H200上跑了14个小时。评论区有人算了一笔账,这种规模的LoRA在Colab上可能只需要花5到10美元,而作者自己提到花了70美元。差价的原因在于没有正确配置Hugging Face GPU端点所需的库,导致训练走了慢速路径。
Qwable-v1基准测试缺失引发的信任危机
模型发布帖里一个基准测试数据都没有。这在AI模型发布中是比较罕见的情况,尤其对于一个声称从顶级模型蒸馏而来的项目来说,缺乏验证数据等于让人盲买。
SWE-bench这类标准测试运行成本确实不低,每次评估都要消耗大量计算资源。但评论区指出,既然你能花14个小时在H200上跑训练,拿几个基准测试来跑一下似乎也不是完全做不到的事。两者之间的资源差距并没有大到不可调和的程度。
有人专门试了Q4量化版本,给出的反馈是思考速度确实变快了,但模型会在某些任务上跑偏。一个具体的例子是洗车测试,正常Qwen版本能通过,而蒸馏版本失败了。这说明蒸馏过程可能只复制了风格层面的东西,比如输出格式和措辞方式,但推理能力的迁移并不成功。
还有个更基本的追问:如果拿蒸馏后的模型和原始的Qwen3.6-35B做对比,到底哪个更好?在没有基准数据的情况下,这个问题只能靠猜。有人直接说这种微调大概率会把模型搞坏,半残废的推理能力还不如留着原来的Qwen老老实实用。
评论里反复出现的一个观点是,这类蒸馏模型很多都只是风格迁移而非能力迁移。模型学会了模仿目标模型的说话方式、工具调用格式、XML标签结构,但在解决实际问题上并没有获得实质提升。这在蒸馏领域是个老问题,而Qwable-v1看起来也没有逃出这个规律。
Fable工具接口遗留在Qwable-v1权重中的痕迹
一个值得注意的细节是,蒸馏后的模型在使用代理系统提示词时,会输出格式正确的 XML标签来调用工具。具体调用的工具包括str_replace_editor这类Fable原本就有的工具。
这说明蒸馏过程不仅复制了模型的回答风格,还把工具调用的模式也学了过来。这套工具接口原本是Fable的工作方式,现在出现在了Qwable-v1的输出里。从技术角度看,这种接口模式的迁移比单纯的文本风格复制要深入一些,毕竟涉及到结构化的API调用格式。
但这里有个尴尬之处。模型学会了调用str_replace_editor这类工具,但底层的Qwen模型本身并不具备执行这些工具的能力。这就好比你学会了开车的手势和口令,但脚底下根本没有油门刹车。模型能输出格式完美的工具调用指令,但这些指令在本地环境中基本跑不起来,除非专门搭建一套兼容Fable工具接口的运行环境。
这也是评论区有人调侃Fable变成了Temu Fable的原因。外观看着像那么回事,标签贴得也挺整齐,但拆开包装之后发现功能缩水严重。工具调用的XML格式确实保留了,但工具本身的执行逻辑没法蒸馏过来,因为那些是运行时环境的事情,不是模型权重能承载的内容。
社区反应像一锅煮沸的水
Reddit的r/LocalLLaMA板块上帖子发出来后,网友们的反应基本分成两个阵营。有人觉得这玩意儿简直就是开源社区的耻辱,四千多个样本就能叫蒸馏Fable-5,那随便什么模型都能自称是GPT-5的蒸馏版。更离谱的是有人发现那四千多个样本其实只来自大约60个Claude会话,每个会话被切分成了多次助手回复。这意味着有效数据量比宣传的还要少得多。
有人直接把这比作自家酿的私酒。正经蒸馏应该像酿造精酿威士忌,每一步都有严格标准和流程。而Qwable-v1更像是疯叔叔在后院鼓捣出来的月光酒,喝了可能直接失明。还有个经典评论说LLM用户终于发现了顺势疗法。用水稀释一万倍的药都能治病的理论,用四千条样本就想让Qwen继承Fable的能力,这两者之间确实有某种奇妙的相似性。
也有网友表示理解这种抢先发布的心态。当年GPT-3刚出来的时候,社区里充斥着各种乱七八糟的微调和合并实验,那时候大家都在瞎试。有人回忆说那才是好日子,现在至少还知道自己在干什么。还有人引用了软件工程圈那句名言,更差的反而更好。先发优势往往比完美更重要,就算这个模型问题一大堆,但它确实是第一个公开宣称从Fable-5蒸馏出来的作品。
还有人对模型命名的随意性表示不满。Qwable这个名字本身就是在玩梗,评论区有人问为什么不叫Qwythos(Qwen加Mythos),还有人担心Ollama会直接把它标注成Fable-5-35B,彻底模糊掉原始模型和蒸馏产物之间的区别。模型名称的混乱会进一步加剧溯源困难,以后谁能记得住这个Qwable到底是从哪来的。
更悲观的观点认为,Claude从4.6之后的版本就已经内置了蒸馏检测机制,会主动提供低质量响应来干扰蒸馏过程。如果这个说法成立,那么Fable 5本身就带有对抗蒸馏的设计,蒸馏出来的东西从一开始就被污染了。当然这个说法没有公开证据支持,但反映了社区对蒸馏可行性的整体疑虑。
有个用户把这件事总结得很精辟:这不是精品威士忌,而是你疯狂叔叔酿的私酿货。这个比喻被多人引用并扩展,有人说山姆大叔已经在后面追着查私酿了。用合法性的隐喻来调侃,恰好抓住了事件的核心矛盾——一个被出口管制叫停的模型,通过蒸馏的方式又冒了出来,整个过程都踩在监管的灰色地带。
Qwable-v1技术参数背后的尴尬
开发者把模型、GGUF量化版本和微调数据集全部公开在了Hugging Face上,许可证用了AGPL-3.0。这个许可证在开源AI圈争议很大,因为它要求任何使用该模型的衍生作品也必须开源。有人直接骂这是混蛋操作。在目前绝大多数商业公司都在搞闭源模型的大环境下,用AGPL-3.0约等于告诉别人别碰我的东西。
量化和推理社区的动作倒是很快。bartowski马上上传了各种量化版本的GGUF文件,ollama那边估计很快也会把这玩意加进模型库。不过大概率会像deepseek-r1那次一样,在库里面标注成什么奇怪的名字。有人预测他们会直接叫它Fable-5-35B,完全忽略这跟真正的Fable-5之间还差着十万八千里。
最尴尬的部分是没有发布任何基准测试结果。正常的模型发布流程是先把模型跑一遍标准评测集,拿出数据证明自己确实比基线模型强。而Qwable-v1的发布方式完全是反过来的。就像一家餐厅开业大酬宾,菜单上写着米其林三星主厨出品,但后厨连一口像样的锅都没有。有人直接说发布者可能自己测试过发现效果太差,干脆跳过这个步骤了。
蒸馏技术的内部博弈
蒸馏这个技术方向在开源社区一直存在争议。支持者认为这是让小模型学会大模型能力的高效途径,反对者觉得大多数蒸馏产物都在拉低模型原本的性能。Jackrong这位开发者曾经公开测试过多个蒸馏模型,结论是大部分蒸馏版本的表现反而比基线Qwen更差。只有他发布的Qwopus系列通过思维链反转技术,才真正实现了在部分基准上超过原版模型。
Qwable-v1的开发者承认自己是在之前Opus蒸馏的基础上继续微调的。
这种做法在机器学习里有个专门的称呼叫累积灾难性遗忘。每次在新数据上微调,模型都会逐渐忘记之前学到的知识。
想象一下你学了英语又学法语,结果两门语言都说不利索了。把两个蒸馏数据集合并起来一起训练通常效果更好,但发布者选择了更省事的顺序训练方式。
有个评论者的分析特别毒舌:他逐条拆解了训练参数的不合理之处,包括学习率、秩、序列长度、目标模块等各个维度的失误。最后补了一句看到这些操作让我想起自己刚入门时犯的错误。这种评价等于在说发布者还是个新手,但新手就敢拿公开数据蒸馏顶级模型还直接发布出来,勇气可嘉技术堪忧。
Qwable-v1模型的真实表现与未知数
个别用户测试后反馈说Q4量化版本的思考速度明显变快了,但思维能力也跟着崩了。有人拿洗车测试去考它,结果是挂掉了。而原始的Qwen3.6-27B版本能轻松通过这个测试。速度快但错误率更高,这就像一辆拆掉了刹车的跑车,加速确实猛但随时可能撞墙。
关于思维链痕迹的真实性也存在疑问。Anthropic在4.7版本之后专门加强了反蒸馏机制,模型会检测到API调用者试图提取思考过程,然后输出经过刻意改写的内容。Fable-5正好卡在这个时间点上,公开的那些痕迹到底包含多少真实的推理过程还是未知数。如果这些痕迹本身已经被污染过,那蒸馏出来的模型自然继承了这种污染。
还有人指出这个模型的工具调用格式直接继承了Fable-5的XML风格,而不是Qwen原本的工具格式。这确实证明模型学到了一部分Fable的接口风格,至少不是完全没效果。但风格迁移和能力迁移是两码事,学会讲同样的方言不代表拥有同样的智力水平。
蒸馏模型的合法性困境
AGPL-3.0许可证的选择也引发了讨论。有人直接说这是不太友好的做法,因为AGPL对商业使用有限制性条款。考虑到模型是通过调用Anthropic的API获取数据训练出来的,这个许可证选择就更微妙了。Anthropic的服务条款是否允许这种用途是个问题,而蒸馏数据本身是在反蒸馏机制存在的情况下获取的,整个过程的法律风险并不低。
更宏观的视角来看,美国出口管制指令禁止的是Fable 5本身的继续运营,而蒸馏模型是否也在管制范围内是个灰色地带。模型的权重和推理能力如果接近原始水平,理论上也可能触发同样的管制标准。
Qwable-v1目前没有跑出接近Fable 5的基准分数,所以暂时不会成为监管目标。但如果哪天蒸馏技术真的能把能力完整迁移过来,类似的管制措施大概率会再次启动。
这类蒸馏项目通常被社区戏称为实验室外的私酿活动,参与者大多是个人开发者或小团队,用有限的硬件和公开数据集做尝试。Qwable-v1就是这种模式的典型样本,训练时间短、数据规模小、配置不完美,但它确实存在并且可以被任何人下载使用。
从技术传播的角度看,这类项目的作用更像是一种压力测试。它们验证了在有限条件下从受限模型中提取知识的可能性边界,同时也暴露了当前反蒸馏措施的局限性。Fable 5只活了四天,但关于它的蒸馏模型至少还能再活一段时间。
开源社区的浮躁缩影
这起事件完美展示了当前开源AI社区的两个极端倾向。一方面是狂热的速度竞赛,模型刚公开几天就有人发布蒸馏版本,谁先谁后比谁好谁坏更重要。另一方面是日益严重的质量焦虑,大量低质量的微调模型污染了Hugging Face的模型库,真正的优质作品反而被淹没在海量垃圾里。
有用户统计过Hugging Face上至少95%的蒸馏模型都属于内容农场级别的产品。这些模型的发布更多是为了刷存在感和获取社交媒体流量,而不是真正推动技术进步。每次有热门模型被蒸馏,都能在LinkedIn上刷出一堆炫耀帖,但真正有用且经过验证的改进少之又少。
不过也有人持相反观点。开源社区本身就是靠这种野蛮生长起家的,早期Linux和GitHub上的项目也充斥着大量半成品和失败尝试。正是在这种混沌中,才逐步筛选出了真正有价值的技术突破。也许Qwable-v1本身确实不够好,但它证明了在有限资源下蒸馏顶级模型的可能性。等下一个真正优秀的大模型被蒸馏出来时,今天这些试错就都有了意义。
总结
Qwable-v1的发布揭示了AI蒸馏领域从数据获取到训练参数的全链条问题,尽管效果存疑,但开源社区的快速响应机制依然展现了技术民主化的活力。