微软刚刚在 HF 上发布了基于 Phi4 架构的推理模型plus版本(Phi-4-reasoning-plus ):
Sebastien Bubeck 表示:
- phi-4-reasoning 在数学上优于 Deepseek R1
- 但它的大小只有 R1 的 2%
Phi-4-reasoning-plus 是一个先进的开放权重推理模型,它基于 Phi-4 进行微调,并在思路链轨迹数据集上进行了监督式微调,并结合了强化学习。该监督式微调数据集融合了合成提示和来自公共领域的高质量筛选数据,侧重于数学、科学和编程技能,以及安全性和负责任的人工智能 (Responsible AI) 的对齐数据。这种方法的目标是确保小型高性能模型能够使用专注于高质量和高级推理的数据进行训练。
Phi-4-reasoning-plus 还额外使用了强化学习进行训练,因此准确率更高,但平均生成的 token 数量也增加了 50%,因此延迟也更高。
他们还发布了一份技术报告:Arxiv
网友: 1、它想得太多: 死我了!我就随便说了句"嗨"跟AI打个招呼,结果这傻孩子直接死机了! "滴——检测到h-e-l-l-o五个字母,h的ASCII码是104,e是101..."(突然变脸)救命啊它居然开始列数学公式了! (捶黑板)这憨憨AI怕不是个计算器成精了吧?连句"吃了没"都不会回,搁那儿疯狂解方程呢! 像不像中二生考试时想太多,把1+1算成相对论的样子?
2、过度拟合的好坏 好比你们班有个"人形百科全书"学霸:
- (突然夸张)问他"地球为啥是圆的",他能把地球诞生史倒背如流!
- (突然垮脸)但问他"中午食堂哪个菜好吃",他立马死机开始翻食堂进货单!(拍手惊醒)
据说阿里千问小模型Qwen3的混合MoE方式已经克服了这张过度思考,过度拟合,事实核查之类走快捷通达。
3、我还没有测试过 Phi-4 Reasoning Plus 的数学功能,但我测试过它的逻辑/假设题,它是我本地测试过的最好的推理模型之一。这真是一个令人惊喜的发布。 如今,一个小型的 14b 型号竟然能把老款的 70b 型号完爆,真是令人印象深刻。 当然,它占用的 token 数量要多得多(最大上下文长度 32k),但由于我完全可以把它装进显存,所以速度飞快。
4、这款机器性能超乎寻常,对于一款微软机型来说,这真是个惊喜。如果不是Qwen3刚刚发布,我想这款机器应该会更受关注。对于一款14B机型来说,它的性能和速度都出奇地好。
5、我真的认为微软研究院对人工智能的研究方法很有意思:OpenAI 已经致力于通用人工智能 (AGI),所以他们反其道而行之,开发小型的、特定领域的模型。甚至他们的技术报告也说 Phi 主要接受的是 STEM 领域的训练。
我个人认为这就是未来。当我使用 VSCode 时,我宁愿使用一个只理解代码的本地模型,也不愿将我的代码库上传到云端,这样我就可以使用一个可以告诉我 1956 年洋基队比赛情况的模型。
混合专家架构最终可能会使这种差异变得毫无意义(假设使用该架构的系统能够足够快速地加载和卸载相应的“专家”)。
但是,Phi 家族一直对微软如何大力推广专业模型很感兴趣。虽然我称之为专业模型,但技术论文展示了一些即使在 STEM 领域之外也相当令人印象深刻的例子。
6、永远不要相信微软的真正技术。这些都是针对其目标受众的推销策略:非科技公司中负责选择技术栈的高管和不懂技术的决策者。
如今,因为所有非技术高管都知道 DeepSeek,所以声称比 DeepSeek 更好很重要(起到营销目的)。