模型发布引发了一场关于1M上下文的口水战
EmperoAI团队放出了Qwythos-9B-Claude-Mythos-5-1M这个模型,HuggingFace链接直接甩出来,GGUF量化版本也准备好了。发布帖子里那个兴奋劲儿,隔着屏幕都能感觉到。
有人在下面问怎么去掉审查,别人直接甩了句“回去读模型卡”,因为Qwen3.5-9B基础模型本身就是深度无审查的。但马上有人反驳说看了实际输出样例,觉得还是不够开放。
团队负责人跑出来解释说,他们的CoT生成偏向防御者视角而不是攻击者视角,所以感觉上可能不够“完全解放”,但他们的abliterated Qwen基础模型的拒绝率已经是0%了。这波解释有点绕,但大概意思是:模型不会直接拒绝回答问题,只是回答的角度偏保守。
推理能力到底强不强,实测数据说了算
有个用户贴了个详细的医学诊断对比表格,把Qwythos-9B和Gemma-4B、Qwen-9B、Gemma-12B放在一起比。四个医疗陷阱测试里,Qwythos在氧气治疗和诊断准确性上拿了满分,最终得分7/10,比第二名的Gemma-12B还高3分。
但Qwythos在β受体阻滞剂那个问题上翻车了,说呋塞米会导致支气管痉挛,还凭空编了个二尖瓣血栓。这错误离谱到让人怀疑它是不是在梦里学的医。
不过团队回应说,Qwythos本来就是针对分析、医学推理和网络安全优化的,不是通用聊天模型。也就是说,你拿它写诗可能翻车,但让它分析病历可能还行。
1M上下文到底有没有用,吃瓜群众吵成一团
9B参数的模型塞进1M上下文窗口,这事本身就挺魔幻的。有人直接打了一串笑哭表情,意思是你认真的吗?
团队说他们正在用这模型写自己的agentic harness,而且效果不错。但马上有技术大佬跳出来算账:Qwen3.5用了Attention-DeltaNet混合架构,1M token的KV缓存要吃掉34GB显存,就算用Q8量化,加上模型权重也得至少16GB VRAM才能跑180K上下文。
更扎心的是那句“小模型在1M上下文下几乎没用”,因为微调时用的都是短序列,强行拉长上下文会让模型忘记任务,只会编漂亮谎话。这就像让一个背过唐诗三百首的人硬撑三小时的脱口秀,前五分钟还行,后面全是胡扯。
采样参数才是真正的隐藏boss
有个用户说模型老卡在循环里,连一两轮对话前的上下文都记不住。团队立马问:你用推荐的采样参数了吗?
这人老实承认没看模型卡,调完参数后发了个“天壤之别”。整个过程充满了“说明书还是要看的”那种略带尴尬的顿悟感。
团队在模型卡里明确列出了温度、top_p、重复惩罚等参数,但显然很多人直接下载就开跑,然后抱怨模型傻。这就好比买了个高级咖啡机不看说明书,磨出来的全是渣子还怪机器不行。
GGUFs更新和MTP支持让部署门槛降低
团队在发布后两天就更新了v2版GGUF,修复了tokenizer问题,还加了MTP支持和自定义对话模板。有用户在8GB显存的3060Ti上跑Q4_K_M量化,用在家居自动化场景里,说换了模型后控制灯光和音乐稳如老狗。
有人问能不能在8GB VRAM上跑,团队说Q4_K_M大概占5.5GB显存,完全没问题。还有人在M5 Max上跑完整1M上下文,说效果炸裂。
但别高兴太早,有人在5070Ti 16GB上跑Q8量化,把上下文设到128K,结果模型疯狂循环。团队再次提醒:采样参数没调对,再好的硬件也救不了。
和Qwopus的对比引发了一场小规模捧一踩一
有人问这模型和Qwopus 9B比怎么样,马上有人跳出来说MLX-Qwopus3.5-9B-v3-4bit好得多。团队很客气地问具体好在哪,说他们正在持续改进。
但从那个医学对比表格来看,Qwopus在好几个关键指标上确实不太行,比如把呋塞米说成威胁肺部的药,还编造了不存在的二尖瓣血栓。相比之下Qwythos至少能正确诊断急性感染性肺炎是诱发因素。
这就很有意思了,同样基于Qwen3.5的微调,数据来源不同,效果能差出好几个档次。团队的Qwable只用了Fable输出,而Qwythos加了网络安全、红队测试、医学、生物、化学和物理训练,还只用内部数据。
未来规划看着挺唬人但还得看落地
团队说他们正在训练自己的模型,从零开始的那种,Qwythos已经进入RL阶段来优化响应时间。还透露下一代会有自适应思考和压缩CoT。
有人问微调指南,团队留了邮箱说早上回复。还有人问能不能出MLX版本,团队没直接回复但态度还算积极。
不过有用户指出,Qwythos的1M上下文是靠默认开启的YaRN rope-scaling实现的,这东西会让近距离记忆变得模糊来换取远距离记忆能力。所以实际使用时,短对话可能反而不如基础模型流畅。
结尾
这个9B模型确实在推理和长上下文上做了大胆尝试,但采样参数调不对就是废铁,硬件门槛和实际可用性之间还有不小的鸿沟。