开源Qwable-v1全面解析：自称蒸馏自最强Claude Fable 5模型

#大语言模型LLM #本地小语言模型 #AGI通用人工智能 #DeepSeek时刻

2026-06-21 7K banq

四天封神？开源大神用4000条对话硬怼Claude顶级模型！

一款名为Qwable-v1的开源模型横空出世，它自称是从Anthropic的顶级模型Claude Fable-5中蒸馏而来。开发者仅用公开的4659条思维链痕迹和一张H200显卡训练了14个小时。社区对此反应两极分化，有人兴奋有人嘲讽，认为这只是个参数调得不好的玩具。

Fable 5：一场持续四天的疯狂派对

Anthropic公司在2026年6月9日那天悄悄放出了他们的王牌模型Claude Fable-5。可是这场狂欢只持续了四天，到了6月12日，美国出口管制部门直接出手叫停了Fable-5的全球访问权限。

对于普通用户来说，这就像好不容易抢到的限量版球鞋突然被官方收回。但对于开源社区的狂热分子来说，这四天窗口期就是天赐良机。有人立刻开始疯狂调用API，试图把Fable-5的思维链痕迹全部抓取下来。Anthropic在API里内置了一个反蒸馏分类器，这个工具会实时屏蔽模型的思考过程，只输出处理后的结果。

Fable 5被Anthropic称为当时最强大的模型，这话说出来是有数据支撑的。SWE-bench Pro跑到80.3%，这个分数在软件工程任务上已经相当能打。定价每百万输出token收50美元，属于旗舰型号的标配价位。但真正让这模型特殊的地方在于，它只活了四天。从2026年6月9日上线，到6月12日被全球暂停，中间隔着不到96个小时。美国出口管制指令是直接原因，这类高性能AI模型一旦触及某些技术阈值，就会被监管系统盯上，然后迅速下架。

这四天里发生的事情很有意思。Anthropic在API里加了一层反蒸馏分类器，专门用来拦截思维链内容的输出。这意味着你问模型一个问题，它怎么一步步推理出来的那些内部思考过程，会被系统实时审查并删除掉。设计这个机制的目的很明确，防止别人用API输出来训练自己的模型。但问题在于，这套防护系统并没有做到滴水不漏。

Glint-Research发布了一个名为Fable-5-traces的数据集，里面包含的明文思维链轨迹成了后续蒸馏工作的核心素材。这些数据能够突破防护层流出来，说明反蒸馏机制在实际运行中存在漏洞。要么是某些请求绕过了检测，要么是分类器的规则不够完善，总之那四天里有人成功拿到了足够多的训练数据。

Qwable-v1的发布者lordx64把这些轨迹重新打包，用在Qwen3.6-35B-A3B上做了蒸馏训练。硬件配置是单张H200，用时大约14个小时。这个时间投入对于一个蒸馏项目来说算是相当紧凑的，也侧面说明了训练数据的规模并不大。

模型发布后附带了一系列GGUF量化版本，包括IQ4_XS、Q4_K_M、Q5_K_M和Q8_0，同时在Hugging Face上公开了SFT数据集。许可证沿用上游的AGPL-3.0。从发布内容来看，该有的组件基本都齐了，模型权重、量化文件、训练数据都放了出来。

Qwable-v1训练配置暴露的技术缺陷

lordx64这位开发者拿着这批公开痕迹，选择了Qwen3.6-35B-A3B作为基底模型。他用了大约14个小时，在单张H200显卡上跑完了蒸馏训练。这张显卡在AI训练圈算得上高级玩具，但跟大公司动辄几百张H100的算力集群比起来，这配置就像用家用烤箱对抗工业流水线。

TheRealMasonMac在评论里对训练配置做了详细拆解，指出了多个技术问题。首先，训练是从作者自己之前的Opus蒸馏模型继续微调的，没有把两个数据集合并在一起使用。这种做法会累积灾难性遗忘，模型在学习新数据的同时逐渐丢失之前学到的内容。

LoRA的秩和alpha都设成了16。对于蒸馏任务来说，这个配置通常只适合对模型现有分布做细微调整，比如改改输出风格之类的事情。按常规经验，小秩下alpha应该设为秩的两倍。把这两个参数都设成一样的值，等于限制死了模型能从新数据里学到多少东西。

目标模块也没有覆盖所有理想选项，进一步压缩了模型的学习空间。学习率用的是2e-5，这个值通常用于全参数微调，LoRA场景下一般建议放大到2e-4左右。用偏低的学习率会让训练过程变慢，但在这个案例里更致命的问题是，低学习率搭配小秩，模型根本来不及从四千多条样本里吸收足够的信息就已经收敛了。

序列长度限制在4096个token。如果大部分训练样本都超过这个长度，就会被截断，丢失掉思维链后半段的内容。蒸馏的核心就是要保留原始模型的推理过程，截断之后还剩下什么就很难说了。

整个训练在单个H200上跑了14个小时。评论区有人算了一笔账，这种规模的LoRA在Colab上可能只需要花5到10美元，而作者自己提到花了70美元。差价的原因在于没有正确配置Hugging Face GPU端点所需的库，导致训练走了慢速路径。

Qwable-v1基准测试缺失引发的信任危机

模型发布帖里一个基准测试数据都没有。这在AI模型发布中是比较罕见的情况，尤其对于一个声称从顶级模型蒸馏而来的项目来说，缺乏验证数据等于让人盲买。

SWE-bench这类标准测试运行成本确实不低，每次评估都要消耗大量计算资源。但评论区指出，既然你能花14个小时在H200上跑训练，拿几个基准测试来跑一下似乎也不是完全做不到的事。两者之间的资源差距并没有大到不可调和的程度。

有人专门试了Q4量化版本，给出的反馈是思考速度确实变快了，但模型会在某些任务上跑偏。一个具体的例子是洗车测试，正常Qwen版本能通过，而蒸馏版本失败了。这说明蒸馏过程可能只复制了风格层面的东西，比如输出格式和措辞方式，但推理能力的迁移并不成功。

还有个更基本的追问：如果拿蒸馏后的模型和原始的Qwen3.6-35B做对比，到底哪个更好？在没有基准数据的情况下，这个问题只能靠猜。有人直接说这种微调大概率会把模型搞坏，半残废的推理能力还不如留着原来的Qwen老老实实用。

评论里反复出现的一个观点是，这类蒸馏模型很多都只是风格迁移而非能力迁移。模型学会了模仿目标模型的说话方式、工具调用格式、XML标签结构，但在解决实际问题上并没有获得实质提升。这在蒸馏领域是个老问题，而Qwable-v1看起来也没有逃出这个规律。

Fable工具接口遗留在Qwable-v1权重中的痕迹

一个值得注意的细节是，蒸馏后的模型在使用代理系统提示词时，会输出格式正确的 XML标签来调用工具。具体调用的工具包括str_replace_editor这类Fable原本就有的工具。

这说明蒸馏过程不仅复制了模型的回答风格，还把工具调用的模式也学了过来。这套工具接口原本是Fable的工作方式，现在出现在了Qwable-v1的输出里。从技术角度看，这种接口模式的迁移比单纯的文本风格复制要深入一些，毕竟涉及到结构化的API调用格式。

但这里有个尴尬之处。模型学会了调用str_replace_editor这类工具，但底层的Qwen模型本身并不具备执行这些工具的能力。这就好比你学会了开车的手势和口令，但脚底下根本没有油门刹车。模型能输出格式完美的工具调用指令，但这些指令在本地环境中基本跑不起来，除非专门搭建一套兼容Fable工具接口的运行环境。

这也是评论区有人调侃Fable变成了Temu Fable的原因。外观看着像那么回事，标签贴得也挺整齐，但拆开包装之后发现功能缩水严重。工具调用的XML格式确实保留了，但工具本身的执行逻辑没法蒸馏过来，因为那些是运行时环境的事情，不是模型权重能承载的内容。

社区反应像一锅煮沸的水

Reddit的r/LocalLLaMA板块上帖子发出来后，网友们的反应基本分成两个阵营。有人觉得这玩意儿简直就是开源社区的耻辱，四千多个样本就能叫蒸馏Fable-5，那随便什么模型都能自称是GPT-5的蒸馏版。更离谱的是有人发现那四千多个样本其实只来自大约60个Claude会话，每个会话被切分成了多次助手回复。这意味着有效数据量比宣传的还要少得多。

有人直接把这比作自家酿的私酒。正经蒸馏应该像酿造精酿威士忌，每一步都有严格标准和流程。而Qwable-v1更像是疯叔叔在后院鼓捣出来的月光酒，喝了可能直接失明。还有个经典评论说LLM用户终于发现了顺势疗法。用水稀释一万倍的药都能治病的理论，用四千条样本就想让Qwen继承Fable的能力，这两者之间确实有某种奇妙的相似性。

也有网友表示理解这种抢先发布的心态。当年GPT-3刚出来的时候，社区里充斥着各种乱七八糟的微调和合并实验，那时候大家都在瞎试。有人回忆说那才是好日子，现在至少还知道自己在干什么。还有人引用了软件工程圈那句名言，更差的反而更好。先发优势往往比完美更重要，就算这个模型问题一大堆，但它确实是第一个公开宣称从Fable-5蒸馏出来的作品。

还有人对模型命名的随意性表示不满。Qwable这个名字本身就是在玩梗，评论区有人问为什么不叫Qwythos（Qwen加Mythos），还有人担心Ollama会直接把它标注成Fable-5-35B，彻底模糊掉原始模型和蒸馏产物之间的区别。模型名称的混乱会进一步加剧溯源困难，以后谁能记得住这个Qwable到底是从哪来的。

更悲观的观点认为，Claude从4.6之后的版本就已经内置了蒸馏检测机制，会主动提供低质量响应来干扰蒸馏过程。如果这个说法成立，那么Fable 5本身就带有对抗蒸馏的设计，蒸馏出来的东西从一开始就被污染了。当然这个说法没有公开证据支持，但反映了社区对蒸馏可行性的整体疑虑。

有个用户把这件事总结得很精辟：这不是精品威士忌，而是你疯狂叔叔酿的私酿货。这个比喻被多人引用并扩展，有人说山姆大叔已经在后面追着查私酿了。用合法性的隐喻来调侃，恰好抓住了事件的核心矛盾——一个被出口管制叫停的模型，通过蒸馏的方式又冒了出来，整个过程都踩在监管的灰色地带。

Qwable-v1技术参数背后的尴尬

开发者把模型、GGUF量化版本和微调数据集全部公开在了Hugging Face上，许可证用了AGPL-3.0。这个许可证在开源AI圈争议很大，因为它要求任何使用该模型的衍生作品也必须开源。有人直接骂这是混蛋操作。在目前绝大多数商业公司都在搞闭源模型的大环境下，用AGPL-3.0约等于告诉别人别碰我的东西。

量化和推理社区的动作倒是很快。bartowski马上上传了各种量化版本的GGUF文件，ollama那边估计很快也会把这玩意加进模型库。不过大概率会像deepseek-r1那次一样，在库里面标注成什么奇怪的名字。有人预测他们会直接叫它Fable-5-35B，完全忽略这跟真正的Fable-5之间还差着十万八千里。

最尴尬的部分是没有发布任何基准测试结果。正常的模型发布流程是先把模型跑一遍标准评测集，拿出数据证明自己确实比基线模型强。而Qwable-v1的发布方式完全是反过来的。就像一家餐厅开业大酬宾，菜单上写着米其林三星主厨出品，但后厨连一口像样的锅都没有。有人直接说发布者可能自己测试过发现效果太差，干脆跳过这个步骤了。

蒸馏技术的内部博弈

蒸馏这个技术方向在开源社区一直存在争议。支持者认为这是让小模型学会大模型能力的高效途径，反对者觉得大多数蒸馏产物都在拉低模型原本的性能。Jackrong这位开发者曾经公开测试过多个蒸馏模型，结论是大部分蒸馏版本的表现反而比基线Qwen更差。只有他发布的Qwopus系列通过思维链反转技术，才真正实现了在部分基准上超过原版模型。

Qwable-v1的开发者承认自己是在之前Opus蒸馏的基础上继续微调的。
这种做法在机器学习里有个专门的称呼叫累积灾难性遗忘。每次在新数据上微调，模型都会逐渐忘记之前学到的知识。
想象一下你学了英语又学法语，结果两门语言都说不利索了。把两个蒸馏数据集合并起来一起训练通常效果更好，但发布者选择了更省事的顺序训练方式。

有个评论者的分析特别毒舌：他逐条拆解了训练参数的不合理之处，包括学习率、秩、序列长度、目标模块等各个维度的失误。最后补了一句看到这些操作让我想起自己刚入门时犯的错误。这种评价等于在说发布者还是个新手，但新手就敢拿公开数据蒸馏顶级模型还直接发布出来，勇气可嘉技术堪忧。

Qwable-v1模型的真实表现与未知数

个别用户测试后反馈说Q4量化版本的思考速度明显变快了，但思维能力也跟着崩了。有人拿洗车测试去考它，结果是挂掉了。而原始的Qwen3.6-27B版本能轻松通过这个测试。速度快但错误率更高，这就像一辆拆掉了刹车的跑车，加速确实猛但随时可能撞墙。

关于思维链痕迹的真实性也存在疑问。Anthropic在4.7版本之后专门加强了反蒸馏机制，模型会检测到API调用者试图提取思考过程，然后输出经过刻意改写的内容。Fable-5正好卡在这个时间点上，公开的那些痕迹到底包含多少真实的推理过程还是未知数。如果这些痕迹本身已经被污染过，那蒸馏出来的模型自然继承了这种污染。

还有人指出这个模型的工具调用格式直接继承了Fable-5的XML风格，而不是Qwen原本的工具格式。这确实证明模型学到了一部分Fable的接口风格，至少不是完全没效果。但风格迁移和能力迁移是两码事，学会讲同样的方言不代表拥有同样的智力水平。

蒸馏模型的合法性困境

AGPL-3.0许可证的选择也引发了讨论。有人直接说这是不太友好的做法，因为AGPL对商业使用有限制性条款。考虑到模型是通过调用Anthropic的API获取数据训练出来的，这个许可证选择就更微妙了。Anthropic的服务条款是否允许这种用途是个问题，而蒸馏数据本身是在反蒸馏机制存在的情况下获取的，整个过程的法律风险并不低。

更宏观的视角来看，美国出口管制指令禁止的是Fable 5本身的继续运营，而蒸馏模型是否也在管制范围内是个灰色地带。模型的权重和推理能力如果接近原始水平，理论上也可能触发同样的管制标准。

Qwable-v1目前没有跑出接近Fable 5的基准分数，所以暂时不会成为监管目标。但如果哪天蒸馏技术真的能把能力完整迁移过来，类似的管制措施大概率会再次启动。

这类蒸馏项目通常被社区戏称为实验室外的私酿活动，参与者大多是个人开发者或小团队，用有限的硬件和公开数据集做尝试。Qwable-v1就是这种模式的典型样本，训练时间短、数据规模小、配置不完美，但它确实存在并且可以被任何人下载使用。

从技术传播的角度看，这类项目的作用更像是一种压力测试。它们验证了在有限条件下从受限模型中提取知识的可能性边界，同时也暴露了当前反蒸馏措施的局限性。Fable 5只活了四天，但关于它的蒸馏模型至少还能再活一段时间。

开源社区的浮躁缩影

这起事件完美展示了当前开源AI社区的两个极端倾向。一方面是狂热的速度竞赛，模型刚公开几天就有人发布蒸馏版本，谁先谁后比谁好谁坏更重要。另一方面是日益严重的质量焦虑，大量低质量的微调模型污染了Hugging Face的模型库，真正的优质作品反而被淹没在海量垃圾里。

有用户统计过Hugging Face上至少95%的蒸馏模型都属于内容农场级别的产品。这些模型的发布更多是为了刷存在感和获取社交媒体流量，而不是真正推动技术进步。每次有热门模型被蒸馏，都能在LinkedIn上刷出一堆炫耀帖，但真正有用且经过验证的改进少之又少。

不过也有人持相反观点。开源社区本身就是靠这种野蛮生长起家的，早期Linux和GitHub上的项目也充斥着大量半成品和失败尝试。正是在这种混沌中，才逐步筛选出了真正有价值的技术突破。也许Qwable-v1本身确实不够好，但它证明了在有限资源下蒸馏顶级模型的可能性。等下一个真正优秀的大模型被蒸馏出来时，今天这些试错就都有了意义。

总结

Qwable-v1的发布揭示了AI蒸馏领域从数据获取到训练参数的全链条问题，尽管效果存疑，但开源社区的快速响应机制依然展现了技术民主化的活力。