DeepSeek大模型

DeepSeek Prover：数学证明自动化

同学们注意啦！DeepSeek搞了个数学证明界的"解题小霸王"——DeepSeek-Prover-V2！这就像给电脑装了个超级数学大脑，而且还是开源的（敲重点：不要钱随便用！）。 DeepSeek-Prover-V2是：一种专门为

DeepSeek R2+华为芯片=便宜97.3%

DeepSeek R2 的病毒式小道消息：DeepSeek R2：单位成本下降97.3%，即将发布。其自研分布式训练框架实现昇腾910B芯片集群利用率达82%，在FP16精度下实测算力达512PetaFLOPS，达到同规模A100集群的91%效能

微软发布了全新的 2B bitnet模型

BitNet b1.58 2B4T是微软研究院开发的第一个开源、纯1比特大语言模型（LLM），规模达到20亿参数。它用4万亿个token训练而成，证明了纯1比特的大语言模型性能可以媲美同尺寸的主流开源全精度模型，同时在计算效率（内存占用、能耗、响应速度）

本地AI：Qwen3+Unsloth=2倍速+少70%显存

Qwen3 现已在 Unsloth 中进行微调 - 速度提高 2 倍，VRAM 减少 70% 大家好！现在，您可

RTX 5060 Ti 16GB：本地AI性价比之王

我对在本地运行大型语言模型 (LLM) 的可能性感到兴奋。我决定为此买一张显卡，并想分享我使用 NVIDIA RTX 5060 Ti 16GB 的初步体验。简单来说，这是我的第一张专用显卡。我之前没有任何对比数据，所以一切对我来说都比较陌生。我在

Dynamic v2.0发布：本地跑三大开源模型！

Unsloth Dynamic v2.0 是一种超强AI模型压缩技术，专门用来让大语言模型（比如ChatGPT这类AI）变得更小、更快，但几乎不掉智商！减肥神器：原本几十GB的大模型，经过它压缩后可能只剩几GB，但性能几乎不降！加速神器：压缩后的模型跑得更快

阿里Qwen3全家桶炸场：小模型大能量

阿里千问发布超强AI大脑全家桶——Qwen 3！这次一口气放了8个型号，从迷你款（0.6B）到巨无霸（235B）全都有！

提示大模型：少推理，直接答！

最近那些超级AI（比如DeepSeek之类推理模型）变得特别会做题，秘诀就是让它们像人类一样"把思考过程写出来"。但这篇论文发现了个反常识的现象——有时候不思考反而更厉害！神奇发现：用最新AI"深度求索-

微软推DeepSeek R1 后训练版

MAI-DS-R1 是一个 DeepSeek-R1 推理模型，经过微软 AI 团队的后期训练，旨在填补先前版本模型中的信息空白，并提升其风险状况，同时保持 R1 推理能力。该模型使用来自Tulu 3 SFT 数据集的 11 万个安全和不合规示例进行训练，此外还使用了内部开发的约 35 万个多

本地显卡跑最新AI：谷歌Gemma 3 QAT

Google新出的Gemma 3 QAT模型能让普通显卡用户也能用上顶级AI。这个经过特殊优化（QAT）的int4版本Gemma 3，把显存需求从54GB暴降到14.1GB，但效果几乎没打折。简单说，QAT就像给AI做特训：普通

智谱新开源GLM-4-32B媲美阿里Qwen2.5 72B

全新开源型号 GLM-4-32B，性能媲美 Qwen 2.5 72B 该模型来自 ChatGLM（现为 Z.ai）。此外，还提供推理版、深度研究版和 9B 版（共 6 个模型）。MIT 许可证。

单卡RTX 4090爆走Llama 4 Maverick

Llama 4 Maverick在单个RTX 4090上以45 tk/s的速度本地化-我终于让它工作了！我刚刚完成了一个后续的演示，我从Meta的4000亿参数，128个专家Llama 4 Maverick中获得了每秒45个以上的令牌，我想分享完

国产小模型Qwen3暴打谷歌Gemini！

小语言模型本地AI能否干翻谷歌大模型Gemini 2.5？实测7款"野生学霸"表现！参赛选手小模型名单：通义千问Qwen 3 1.7B 小不点通义千问Qwen3 4B 三好生通义千问Qwen3 8B Q6 课代表 <

特朗普想在美国封杀DeepSeek？

《纽约时报》周三爆料：特朗普团队正琢磨着对中国AI公司DeepSeek下狠手，不仅要断供英伟达的AI芯片，还可能直接不让美国人用他家的人工智能服务。这招明显是要在AI赛道卡中国脖子。自从DeepSeek的AI技术惊艳硅谷和华尔街，美国官员就绞尽脑汁要切断

5美分虐哭AI！开源测试让模型现原形

这个"SOLO Bench"测试有多变态！这玩意儿是个专门折磨AI的"造句地狱"——让AI用大约4000个单词的词库，硬憋出250个句子！每个句子必须严格4个单词，还得符合特定语法格式。最狠的是：每个单词全篇只能用一次！（比如"apple"用过一

Qwen3治好了AI的"满嘴跑火车"病

我跟你们说个超神奇的事儿！Qwen3这回居然把AI乱编瞎话的老毛病给治了！我每次测试新AI都像老师抽查背书一样，专门让它背法语德语的名诗。结果你猜怎么着？这个2350亿参数的Qwen3明明个头不够大（要知道背欧洲诗歌起码得6000亿参数的大块头），还是个"偏科生"模型（MoE技术让它不能同时用全部脑

微软Phi4推理plus版数学击败DeepSeek R1

微软刚刚在 HF 上发布了基于 Phi4 架构的推理模型plus版本（Phi-4-reasoning-plus ）

DeepSeek可能将开源其推理引擎

DeepSeek 即将开源其推理引擎，该引擎是基于 vLLM 的修改版本。现在，DeepSeek 正准备将这些修改回馈社区。几周前，在"开源周"活动里，我们公开了几个代码库。没想到大家特别热情——很多人跑来一起帮忙改bug、提建议，讨论得热火朝天