DeepSeek大模型 - 第3页

DeepSeek工程师刚开源nano-vllm：演示AI核心

DeepSeek员工刚刚开源了nano-vllm ，点击标题。它是一个从头开始构建的轻量级vLLM实现。关键特征快速离线推理-与vLLM的推理速度相当易读的代码库-在约1，

华为诺亚盘古大模型研发历程的心酸与黑暗

来自华为github帖子，原文点击标题：各位好，我是一名盘古大模型团队，华为诺亚方舟实验室的员工。首先为自证身份，列举一些细节：现诺亚主任，前算法应用部部长，后改名为小模型实验室的主任王云鹤。前诺亚主任：姚骏（大家称姚老

华为盘古 Pro MoE：专为昇腾芯片优化的AI模型

盘古Pro MoE是专门为昇腾300I双胞胎和800I A2特调优化！盘古Pro MoE是华为于2025年5月28日发布的大语言模型，其基于创新的分组混合专家模型（Mixture of Grouped Experts, MoGE）架构，在专家选

中国突破AI记忆护城河：全球首款记忆操作系统

中国科学家搞出大新闻！全球首个"记忆操作系统"MemOS横空出世，AI这下真要有"人脑记忆"了！上海交大、浙大的学霸天团最近整了个黑科技，给AI装上了"最强大脑"。就像电脑需要Windows系统管理CPU和硬盘，他们开发的MemOS系统能让AI像

超越DeepSeek中国开源超大模型Kimi K2发布

K2 甚至比 DeepSeek v3 更强大，可以与 Claude Opus 4 和 GPT-4.1 相媲美！ Kimi K2是一个最先进的混合专家（MOE）语言模型，拥有320亿个激活参数和1万亿个总参数。经过Muon优化器的训练，Kimi K2

Osmosis-Apply-1.7B：Qwen+Cursor开源编程工具

使用RL可以很容易地微调小型模型，使其在垂直任务上优于基础模型。我们正在开源Osmosis-Apply-1.7B：一个比基础模型更好地合并代码的小模型（类似于Cursor的即时应用）。 Osmosis-Apply-1.7B就像个"代码拼图高手"，它

重磅！LM Studio全面免费，工作生活无缝切换

从今天起，LM Studio 在家和工作中均可免费使用。查看更新后的条款了解详情。我们的隐私政策保持不变，您可以

写在Kimi K2发布之后：再也不仅仅是ChatBot

这篇文章是Kimi K2发布后不久，Kimi团队成员写的个人反思。 ·超越聊天机器人：Kimi K2实验了一种“工件优先”的交互模型，该模型让AI立即构建交互式前端可交付成果--如PPT页面、图表，甚至是小游戏--而不是简单地返回markdown文

快速免费搭建一套完整自托管的AI编程助手

简而言之：VSCode + RooCode + LM Studio + Devstral + Ollama + snowflake-arctic-embed2 + docs-mcp-server。一个快速、免费、自托管的 AI 编程助手，支持较少使用的语言，并最大限度地减少在性能较弱的硬件上

Kimi K2云端碾压本地模型：速度×价格双杀

考虑到像K2这样强大的模型可以在托管平台上廉价地获得，并且具有很高的推理速度，您是否后悔为LLM投资硬件？现在网上租的AI模型又猛又便宜，速度还快得像闪电侠！你砸钱买高端电脑跑本地AI，肠子悔青没？我

新本地小模型Phi-4-mini-flash-reasoning发布

Phi-4-mini-flash-reasoning 是一个基于合成数据的轻量级开放模型，专注于高质量、推理密集的数据，并进一步优化以实现更高级的数学推理能力。该模型属于 Phi-4 模型系列，支持 64K 的 token 上下文长度。 Phi-4

DeepSeek-R1-0528跻身SciArena五强！唯一开源

DeepSeek-r1-0528在新的SciArena基准测试中排名前5，是唯一的开源AI。当AI学霸们组团搞科研，谁才是文献界的"最强王者"？现在的科学论文就像春天的竹笋一样"蹭蹭"往外冒，教授们看文献看得头都大了！这时候，

中国开源Kimi K2性能和价格吊打Claude 4

【震惊！】开源界突然空降"Claude 4杀手"——Kimi K2模型！这玩意儿到底有多猛？给大家划重点：参数规模突破万亿大关（相当于960GB的超级大脑），比隔壁Deepseek v3的6710亿参数还豪横运行

PPO/DPO/ORPO三连击：大模型强化训练秘籍

用打游戏升级的套路教你调教AI大模型！PPO/DPO/ORPO/GRPO算法全解析【作者】Mehul Jain --- 当AI大模型遇上强化学习：像训练宠物一样调教ChatGP

DeepSeek R2：中国AI巨头遭遇瓶颈还是酝酿大招

大家是不是都还记得去年DeepSeek R1模型发布的时候，那可真是震惊了全世界，连全球股市都跟着抖了几下！当时好多人都觉得，是不是我们之前太高估电脑的推理能力了（不过也有人怀疑DeepSeek是不是偷偷用了比他们宣称的更多的算力来训练模型）。但不管怎么说，DeepSeek R1的出现，就像是给全世

德国或下架Deepseek！涉隐私偏见引争议

柏林数据保护专员向苹果和谷歌报告了人工智能应用Deepseek的非法内容，原因是在没有充分保障的情况下将个人数据传输到中国。柏林数据保护和信息自由专员根据《数字服务法》（DSA）第16条将Deepseek标记为非法内容。苹果和谷歌现在必须审查这份

Kimi K2震撼登顶：全球创意写作基准新王者！

在所有六项任务中，Kimi K2的优势是毋庸置疑的：它写的故事超有文采，各种高级隐喻信手拈来，结构清晰，主题还特别宏大！该模型显示了对文学工艺的复杂掌握，始终如一地提供充满隐喻，结构连贯，主题雄心勃勃的故事。它最大的特点是它能够轻松地整合

细胞“神探”DeepSeek-R1：智能解锁生物奥秘

Deepseek-R1模型预测随机单细胞数据的准确率为38%，点击标题这篇论文讲了一个超酷的生物研究，就像是给细胞们做“户口普查”！细胞的“户口普查”是个大难题！