DeepSeek R1型号进行了小版本升级,当前版本为DeepSeek-R1-0528。
改进基准性能
增强的前端功能
减少幻觉
支持JSON输出&函数调用
在最新的更新中,DeepSeek R1通过利用增加的计算资源和在后期训练中引入算法优化机制,显着提高了推理深度和推理能力。该模型在各种基准评估中表现出色,包括数学,编程和一般逻辑。其整体性能现已接近领先机型,如O3和Gemini 2.5 Pro。
与以前的版本相比,升级后的模型在处理复杂的推理任务方面有了显着的改进。例如,在AIME 2025测试中,该模型的准确率从上一版本的70%提高到当前版本的87.5%。这一进步源于推理过程中思维深度的增强:在AIME测试集中,以前的模型平均每个问题使用12K个令牌,而新版本平均每个问题使用23K个令牌。
除了改进的推理能力外,该版本还提供了降低的幻觉率,增强了对函数调用的支持,以及更好的vibe编码体验。
DeepSeek-R1-0528-Qwen3-8B
同时,我们将DeepSeek-R1-0528中的思想链提取到Qwen 3 8B Base中进行后训练,得到DeepSeek-R1-0528-Qwen 3 -8B。该模型在AIME 2024上实现了开源模型中最先进的(SOTA)性能,超过Qwen 3 8B +10.0%,并与Qwen 3 - 235 B-thinking的性能相匹配。我们相信,DeepSeek-R1-0528的思想链将对推理模型的学术研究和专注于小规模模型的工业发展具有重要意义。
网友热评:
1、最快尝鲜:https://www.baseten.co/library/deepseek-r1/
2、我喜欢DeepSeek没有使用像“O4 Pro Max High”这样奇怪的名字。
3、到目前为止,vibe检查一致-这是开源的巨大胜利!很高兴能与DeepSeek一起构建
4、在《人类最后一次考试》中,把8.5%的分数跳到17.7%称为“小”更新是一个很大的轻描淡写。
5、昨天和今天我在Roo里用了这个新版本,感觉就像在跟一个超级听话的小助手聊天!
这家伙严格按照我的指令办事,啥工具该用它都知道,特别靠谱。
我还特意搞了个小测试,看看它能不能跟鹦鹉似的把我说的原话“复读”回去。中间我还故意使坏,抛点花言巧语或者绕脑子的谜语,想把它搞懵。
结果呢?它愣是把我说的话照搬回来!虽然它的“内心戏”(就是那个CoT,思考链)显示它其实有点懵圈,但它还是死守我的指令不放,时刻提醒自己别跑偏。
在Roo里,它就像个超级自律的学霸,脑子里一直念叨着我的要求和系统规则,还把所有用过的工具记得清清楚楚。
我顺便拿它跟Flash 2.5比了比,Flash 2.5是我平时常用的,感觉也不错,但R1在这方面明显更胜一筹,尤其是在处理复杂任务流程的时候,表现稳得一批。Flash有时候就不那么听话,工具用得乱七八糟。
我没拿它跟Claude比,老实说,我也懒得比,因为我压根不用Claude。不过我猜Claude可能在速度上能甩R1几条街。
R1这家伙吧,反应有点慢,可能是因为我在openrouter上用的免费版,估计得氪金才能跑快点。
它的上下文窗口有168k,容量大得吓人,啥都能装得下,超实用!
总的来说,这次的R1表现挺不错,感觉像个靠谱的“新同学”。我还没使出全力去“刁难”它,看看它到底有多聪明,不过目前为止,表现杠杠的!
6、过去12个小时,我像个疯狂科学家似的测试了这个新玩意儿DeepSeek-R1 0528,还把它跟4个月前的老版本R1比了个底朝天!结果咋样?听我给你掰扯掰扯!
- 这个新版本的DeepSeek-R1,感觉就像是R1的“升级豪华版”,话多了42%,用专业术语说就是“令牌使用率暴涨42%”!它推理和回复的比例大概是76:24,推理占了大头。
- 虽然它占的“内存”(mTok)不算多,但算下来实际成本比“ Claude Sonnet 4”的家伙还略高一点。
- 推理能力或者核心逻辑啥的,我没看出有啥翻天覆地的进步。
- 不过!在数学这块,它真是牛得不行,我的STEM(科学、技术、工程、数学)测试题它一道都没错,简直是学霸附体!
- 技术方面也不赖,前端界面看着更炫酷了,视觉效果拉风得不行,可惜C++编程这块还是有点拉胯,让我有点失望。
- 跟4个月前的V3 0324版本比,这次的升级主要在前端展示上又帅了一截,效果更顺眼。
不过我还拿它玩了两场国际象棋(这比赛耗时长得跟等公交似的!),结果发现国际象棋水平没啥长进,虽然推理时间多了48%,但棋艺还是那个老样子,毫无惊喜。
总体来说,这家伙的思考水平大概跟“ Claude Sonnet 4”差不多,DeepSeek还是开源模型里最猛的那个。
这次更新还拉开了它跟Qwen和Meta的差距,感觉有点“王者归来”的味道。
但!对我来说有个大问题:这家伙用词太多(令牌用量大),推理又慢得像乌龟爬,结合起来简直是“慢动作灾难片”!尤其在我这种实际场景里,压根没耐心等它慢悠悠地吐出结果。
比如一场国际象棋比赛,硬生生得等好几个小时,誰受得了啊!
所以对我来说,这模型基本告别我的“常用列表”了。当然,偶尔应付一些简单查询还行,但对我这种急性子,实在等不起它的“慢工出细活”。
不过嘛,每个人口味不同,这只是我的看法,你试试可能觉得还不错哦!(YMMV=Your Mileage May Vary,意思是“你的体验可能不一样”)
最后说一句,它的前端展示确实进步了,同样的提示和设置,0-shot(零样本测试),效果看着比以前顺眼多了,虽然这不是我测试的重点。
CSS Demo page R1 | CSS Demo page 0528
Steins;Gate Terminal R1 | Steins;Gate Terminal 0528
Benchtable R1 | Benchtable 0528
Mushroom platformer R1 | Mushroom platformer 0528
Village game R1 | Village game 0528
7、期待使用 DeepSeek-R1-0528 提炼的 qwen3-30b-a3b 模型的发布。qwen3-30b-a3b 模型最适合智能体。
8、目前我唯一关心的公开基准测试是幻觉、长上下文处理以及(程度较轻的)指令执行。实际工程设计不能敷衍。这适用于封闭式和开放式模型。
我宁愿买一个 24b 模型,32k 性能完美,幻象几乎为零,即使它在“AIME”模式下表现更差。这样我就可以把实际工作交给本地模型处理。
话虽如此,很高兴看到Deepseek不断挑战大佬们。继续加油!
9、与 Claude Opus 4 相比,它仍然感觉不尽如人意,但谁用得起呢?
10、按照性价比排名:Deepseek是世界上第四大智能AI
11、DeepSeek R1 0528在人工分析智能指数中从60跃升至68。