Qwythos-9B-Claude-Mythos-5发布：1M上下文的9B模型到底能不能打

2026-06-25 1 2K banq

Qwythos-9B-Claude-Mythos-5-1M这个这9B模型居然有1M上下文？！Qwythos-9B是个基于Qwen3.5的微调模型，有1M上下文，号称超长推理能力。评论区吵翻了，有人说它真香，有人说它胡说八道。我试了一圈，发现这玩意儿确实有点东西，但也确实有点毛病。

模型发布引发了一场关于1M上下文的口水战

EmperoAI团队放出了Qwythos-9B-Claude-Mythos-5-1M这个模型，HuggingFace链接直接甩出来，GGUF量化版本也准备好了。发布帖子里那个兴奋劲儿，隔着屏幕都能感觉到。

有人在下面问怎么去掉审查，别人直接甩了句“回去读模型卡”，因为Qwen3.5-9B基础模型本身就是深度无审查的。但马上有人反驳说看了实际输出样例，觉得还是不够开放。

团队负责人跑出来解释说，他们的CoT生成偏向防御者视角而不是攻击者视角，所以感觉上可能不够“完全解放”，但他们的abliterated Qwen基础模型的拒绝率已经是0%了。这波解释有点绕，但大概意思是：模型不会直接拒绝回答问题，只是回答的角度偏保守。

推理能力到底强不强，实测数据说了算

有个用户贴了个详细的医学诊断对比表格，把Qwythos-9B和Gemma-4B、Qwen-9B、Gemma-12B放在一起比。四个医疗陷阱测试里，Qwythos在氧气治疗和诊断准确性上拿了满分，最终得分7/10，比第二名的Gemma-12B还高3分。

但Qwythos在β受体阻滞剂那个问题上翻车了，说呋塞米会导致支气管痉挛，还凭空编了个二尖瓣血栓。这错误离谱到让人怀疑它是不是在梦里学的医。

不过团队回应说，Qwythos本来就是针对分析、医学推理和网络安全优化的，不是通用聊天模型。也就是说，你拿它写诗可能翻车，但让它分析病历可能还行。

1M上下文到底有没有用，吃瓜群众吵成一团

9B参数的模型塞进1M上下文窗口，这事本身就挺魔幻的。有人直接打了一串笑哭表情，意思是你认真的吗？

团队说他们正在用这模型写自己的agentic harness，而且效果不错。但马上有技术大佬跳出来算账：Qwen3.5用了Attention-DeltaNet混合架构，1M token的KV缓存要吃掉34GB显存，就算用Q8量化，加上模型权重也得至少16GB VRAM才能跑180K上下文。

更扎心的是那句“小模型在1M上下文下几乎没用”，因为微调时用的都是短序列，强行拉长上下文会让模型忘记任务，只会编漂亮谎话。这就像让一个背过唐诗三百首的人硬撑三小时的脱口秀，前五分钟还行，后面全是胡扯。

采样参数才是真正的隐藏boss

有个用户说模型老卡在循环里，连一两轮对话前的上下文都记不住。团队立马问：你用推荐的采样参数了吗？

这人老实承认没看模型卡，调完参数后发了个“天壤之别”。整个过程充满了“说明书还是要看的”那种略带尴尬的顿悟感。

团队在模型卡里明确列出了温度、top_p、重复惩罚等参数，但显然很多人直接下载就开跑，然后抱怨模型傻。这就好比买了个高级咖啡机不看说明书，磨出来的全是渣子还怪机器不行。

GGUFs更新和MTP支持让部署门槛降低

团队在发布后两天就更新了v2版GGUF，修复了tokenizer问题，还加了MTP支持和自定义对话模板。有用户在8GB显存的3060Ti上跑Q4_K_M量化，用在家居自动化场景里，说换了模型后控制灯光和音乐稳如老狗。

有人问能不能在8GB VRAM上跑，团队说Q4_K_M大概占5.5GB显存，完全没问题。还有人在M5 Max上跑完整1M上下文，说效果炸裂。

但别高兴太早，有人在5070Ti 16GB上跑Q8量化，把上下文设到128K，结果模型疯狂循环。团队再次提醒：采样参数没调对，再好的硬件也救不了。

和Qwopus的对比引发了一场小规模捧一踩一

有人问这模型和Qwopus 9B比怎么样，马上有人跳出来说MLX-Qwopus3.5-9B-v3-4bit好得多。团队很客气地问具体好在哪，说他们正在持续改进。

但从那个医学对比表格来看，Qwopus在好几个关键指标上确实不太行，比如把呋塞米说成威胁肺部的药，还编造了不存在的二尖瓣血栓。相比之下Qwythos至少能正确诊断急性感染性肺炎是诱发因素。

这就很有意思了，同样基于Qwen3.5的微调，数据来源不同，效果能差出好几个档次。团队的Qwable只用了Fable输出，而Qwythos加了网络安全、红队测试、医学、生物、化学和物理训练，还只用内部数据。

未来规划看着挺唬人但还得看落地

团队说他们正在训练自己的模型，从零开始的那种，Qwythos已经进入RL阶段来优化响应时间。还透露下一代会有自适应思考和压缩CoT。

有人问微调指南，团队留了邮箱说早上回复。还有人问能不能出MLX版本，团队没直接回复但态度还算积极。

不过有用户指出，Qwythos的1M上下文是靠默认开启的YaRN rope-scaling实现的，这东西会让近距离记忆变得模糊来换取远距离记忆能力。所以实际使用时，短对话可能反而不如基础模型流畅。

结尾

这个9B模型确实在推理和长上下文上做了大胆尝试，但采样参数调不对就是废铁，硬件门槛和实际可用性之间还有不小的鸿沟。