Phi-4-mini-flash-reasoning 是一个基于合成数据的轻量级开放模型,专注于高质量、推理密集的数据,并进一步优化以实现更高级的数学推理能力。该模型属于 Phi-4 模型系列,支持 64K 的 token 上下文长度。
Phi-4-mini-flash-reasoning的核心是新引入的解码器-混合解码器架构SambaY,其核心创新是门控存储单元(GMU),这是一种简单而有效的机制,用于在层之间共享表示。 该架构包括一个自解码器,结合了曼巴(状态空间模型)和滑动窗口注意力(SWA),沿着一个单层的充分注意力。
该架构还涉及一个交叉解码器,将昂贵的交叉注意层与新的高效GMU交织在一起。这种带有GMU模块的新架构大大提高了解码效率,提高了长上下文检索性能,并使该架构能够在各种任务中提供卓越的性能。
SambaY架构的主要优势包括:
- 增强解码效率。
- 保持线性预填充时间复杂度。
- 增强的可伸缩性和增强的长上下文性能。
- 吞吐量高达10倍。
“增强的长上下文性能”意味着模型在长上下文任务中做得更好,例如大海捞针问题。
长上下文 好比让AI变成人肉扫描仪!以前让它从一篇《红楼梦》里找‘黛玉哪天葬了花’,它可能读到一半就懵了。现在升级后,哪怕你扔给它整部《四库全书》,它也能像侦探一样唰唰翻出你要的那一页!"
吞吐量就是AI吐字的速度,就像你催食堂阿姨打饭,她一秒能给你碗里扣几个肉丸子——丸子越多(token越多),你吃到饭(拿到答案)就越快!
极客辣评
Phi-4-mini-flash-reasoning的训练数据完全由更强大、更先进的推理模型Deepseek-R1生成的合成数学内容组成。
它比Gemma 3 12B推理模型更好吗?
似乎与7b模型相当,并且由于SSM骨干网,非常长的上下文效率