K2 甚至比 DeepSeek v3 更强大,可以与 Claude Opus 4 和 GPT-4.1 相媲美!
Kimi K2是一个最先进的混合专家(MOE)语言模型,拥有320亿个激活参数和1万亿个总参数。经过Muon优化器的训练,Kimi K2在前沿知识,推理和编码任务方面实现了卓越的性能,同时针对代理功能进行了精心优化。
关键特征
- 大规模训练:在15.5T令牌上预训练1T参数MOE模型,训练不稳定性为零。
- MuonClip优化器:我们将μ子优化器应用到前所未有的规模,并开发新的优化技术来解决不稳定性,同时扩大规模。
- 智能:专门为工具使用,推理和自主解决问题而设计。
- Kimi-K2-Base:基础模型,对于希望完全控制微调和定制解决方案的研究人员和建设者来说,这是一个强大的开端。
- Kimi-K2-Instruct:最适合插入式、通用聊天和代理体验的后训练模型。这是一个没有长期思考的反射级模型。
极客辣评:
哇塞,10亿参数!这么大的模型,要是能把激活参数从320亿调到70-100亿会咋样呢?虽然总参数爆炸多,但Deepseek现在用的激活参数效果就挺棒了。不过小模型还是有点菜,有些概念和逻辑连不上(比如那个30A3B的MOE结构就经常翻车)。要是有人能测试一下或者放个demo出来就好玩了,或者能在OpenRouter上试玩的话就酷毙了!
咱们群里反复测试下来,发现这个模型在多轮对话、角色扮演和小说写作上表现超神,风格也特别稳(顺便一提,它写小说的调调特别像国内知乎那种论坛文风)。模型介绍里提到用了“自我评价机制”(self-judging)来做强化学习,效果确实杠杠的。
不过缺点也有,比如只支持128K上下文,而且不能处理图片、音频这些多模态内容。纯文本能力综合来看,比之前的r1 0528和GPT-4.1强,但还打不过Gemini 2.5 Pro、Claude 4 Opus/Sonnet 和 O3 系列。
考虑到官方放出的对比数据都是基于不带“思维链”(CoT)的基础模型,估计后面还会出一个带CoT的升级版,现在可能还在训练中。等强化学习完全搞定了,说不定能碾压Gemini 2.5 Pro甚至Claude 4 Sonnet,但到那时候,GPT-5和DeepSeek V4可能都发布了……谁知道呢?今年大模型圈真是卷疯了!
有趣的是,它是在15.5T令牌上训练的,而Deepseek的671B使用的是14.8T。 所以我想知道额外的参数实际上会带来多少。 虽然它确实显示了更高的基准,但由于更强的指导训练(也可能是一些基准训练),这是很有可能的。
如果按照“几何平均经验法则”来算,把活动参数(active parameters)翻倍的话,性能大概能提升到 1780亿~2520亿 级别的水平,但计算速度会直接砍半。这么一想,就明白为什么他们要把活动参数控制在较低水平了——毕竟速度和效率都很重要嘛!
不过说实话,我也挺好奇如果搞个超大规模模型,大幅提高活动参数会怎么样。MoE(混合专家模型)的设计理念就是让活动参数远小于总参数,从而在密集模型上取得更好的计算效率。但有时候感觉,这些活动参数的设定多少还是受 DeepSeek 的选择影响,未必是绝对的黄金标准。
P.S. 别忘了,30A3B 这个模型其实更接近 70亿 级别,而不是 320亿。它的核心目标是在 低带宽、高内存设备(比如 B60、APU 或者华为的某些芯片)上实现超快推理速度,而不是单纯堆参数。
他们似乎对许可证采取了一种有趣的方法。他们使用的是修改后的MIT许可证,基本上有一个“商业成功”条款。
如果你使用该模式,并最终拥有1亿月活跃用户,或超过2000万美元的月收入,你必须在产品界面中突出显示“Kimi K2”。
这绝对值得注意。虽然这使得它在技术上不是一个开源许可证(在OSI意义上,不像DeepSeek的MIT许可证),但它比Llama许可证更宽松。
真正的史诗模式
1T参数和384名专家
1TB的DDR4可以花1000美元(我知道,因为我刚为我的一台服务器花了600美元买了一些)
768 GB DDR5在我前一段时间定价时在2 - 3 k美元之间,但从那时起它已经上涨了一点。
很有可能,但速度很慢(根据以前的经验,我估计DDR4上的速度为5 t/s,DDR5上的速度为10 t/s)
Moonshot背后有阿里巴巴、小红书和美团的支持,所以这就是你的答案。
令人惊讶的是,该架构是DeepSeek V3,因此应该很容易使其在当前的DeepSeek V3/R1部署中工作。
1000 B基本模型也被释放,我认为这是我们迄今为止看到的最大的一个!
到目前为止的结果真的很好,而且活跃率很高
现实很骨感啊! 1TB 参数的模型,到 2025 年估计也没几个人能本地跑得动……不过好在它是开源的,希望实测效果能像评测那么强吧。
想想看,之前那些巨无霸模型——Goliath、Llama3-405B、Grok-1,真正跑过的人有几个?它们生不逢时,太大太吃资源了。现在这个模型,哪怕再强,恐怕也难逃“时代眼泪”的命运——不是它不够好,而是硬件还没跟上它的野心!
一个关键的创新之处并没有很好地体现在架构上,而是体现在训练方式上。
也就是说,他们用修改版的 Muon 替换了广受欢迎的 AdamW 优化器。
据 Kimi 2 的开发者称,他们的 MuonClip 优化器“在 LLM 训练中的表现远超广泛使用的 AdamW 优化器”。
考虑到 LLM 训练的成本,这个可能高达数百万美元的赌注却带来了我见过的最平滑的 LLM 训练损失曲线!
Kimi K2 架构背后的真正故事是,万亿参数模型开始在非 Nvidia 硬件上轻松运行......当你买不到最好的芯片时,你就得拼命优化现有的芯片。
当你无法在规模上竞争时,你就得在效率和分叉自由度上竞争。如果中国实验室能够通过巧妙的路由技巧将更多的智能装入更少的芯片中,那么 Nvidia 对 AI 硬件堆栈的控制就会开始变得更加不稳定。
这是典型的压力之下的创新。买不到高端芯片?好吧,我们重新设计一切,让它更好地配合我们自己研发的芯片。
Kimi K2使用了比我以前看到的更好,更多样化的词汇,所以我对SpeechMap数据进行了快速的语言多样性分析,是的,Kimi K2得分最高。
Kimi-K2在EQ-Bench 3和创意写作中名列前茅
https://eqbench.com/
写作示例:
https://eqbench.com/results/creative-writing-v3/moonshotai__Kimi-K2-Instruct.html
EQ-Bench响应:
https://eqbench.com/results/eqbench3_reports/moonshotai__kimi-k2-instruct.html
banq注:现在本站jdon.com文章开始用最新国产大模型kimi 2写的,据说是文风全球最好 ,是知乎风格,相比deepseek的抖音风格更正经一些,比gemini的工程师风格更顺口一些,比Grok3注意力缺陷 自闭症风格更好,当然比ChatGPT弱弱书生气要有力。