• 中国AI凭借“专家混合”架构实现效率与成本双重碾压,开源模型全面领先,西方巨头被迫重新定义护城河。 本文作者 Nilesh Jasani 是 GenInnov 研究机构首席科技趋势分析师,长期追踪全球人工智能、半导体与算力基础设施的交叉演进。其团队
  • Moonshot团队通过构建非完美但结构化的评分规则,在强化学习中有效规避奖励作弊,使Kimi K2在情感智能与创意写作领域登顶全球榜单。 作者背景:Drew Breunig是知名AI技术分析博主,长期聚焦大模型训练机制、合成数据策略与强化学习应用,其深度
  • Kimi Linear凭借创新的KDA机制与混合架构,在长短上下文及强化学习任务中全面超越传统注意力,实现6倍推理速度与75%缓存压缩,开启高效大模型新纪元。 比完整注意力(Full Attention)更快更好的新架构,而且已经像 Kimi 那样 icon
  • GPT-5内置通用验证器:GPT-5最大的变化是搞了个新的强化学习流程,背后靠的是一个新加入的“通用验证器”。你可以把这个验证器看作是和生成器并排站着的另一个模型,就像它的搭档。当GPT-5先出一个初步答案后,这个验证器就会重新读一遍生成器的思考过程和最 icon
  • 谷歌DeepMind提出广义知识蒸馏(GKD),通过策略内自生成样本与教师反馈结合,显著提升小模型性能,兼容强化学习,解决传统蒸馏的分布错配问题。 现在训练大模型,其实浪费了大量算力!  谷歌DeepMind最新论文提出了一种叫“策略内蒸馏”(On icon
  • 两位AI顶尖科学家指出,持续学习并非不可逾越的障碍,随着规模扩展与范式革新,AGI进展可能远超当前悲观预期。   最近X平台上一片悲观情绪,大家都在说:AGI(通用人工智能)短期内没戏了!理由嘛,就是现在的AI模型根本做不到“持续学习”——学完新东西就忘旧 icon
  • Cursor 和 Windsurf 代码智能体公司转向“中等智商+超高速”路线,并非否定智能,而是因自研基座模型成本过高;依托中国开源大模型微调与推理优化,成为务实高效的技术路径。 作者背景介绍:  本文作者是长期深耕大模型训练与推理架构设计的资深 icon
  • Cursor团队发布全新智能编程代理Composer,基于强化学习与MoE架构,在真实开发场景中快4倍、更聪明,重新定义高效编码。 程序员可能不再是从零开始敲代码,而是和一个超级智能体并肩作战?这个智能体不仅能读懂你整个项目,还能自动修复bug、写单元测试 icon
  • 一个140亿参数的模型,竟然能在数学推理上干翻一个6710亿参数的“巨无霸”?这事儿听起来像不像“小学生打赢了职业拳王”?但就在最近,微软研究院真的做到了。 他们没靠堆数据、没靠堆算力,而是用一套叫 rStar2-Agent 的新方法,让一个小巧精 icon
  • 马斯克的xAI正打造全球首个千兆瓦级超算数据中心Colossus 2,通过跨州供电、与Solaris合作自建电厂、布局中东融资等方式突破算力瓶颈,并采用独特强化学习路径冲击AGI,展现出超越对手的全面战略布局。 马斯克的AI公司“xAI”正在悄悄干一件惊天 icon
  • Sea AI Lab与新加坡国立大学发现,RL训练不稳的根源竟是精度格式问题,将BF16切换为FP16即可显著提升训练稳定性与部署一致性,引发Andrej Karpathy等大神实测验证。 —— 最近大模型训练越 icon
  • 特斯拉FSD14以50亿参数、混合专家、强化学习三重暴击,实现比人类安全17倍的无人驾驶,全球Robotaxi牌照已开闸,驾照即将成收藏品。 FSD14不是升级,是“借尸还魂”  别再以为14就是13打补丁!大错特 icon
  • 推理模型通过算法创新,在数学和科学任务上实现相当于10倍训练算力的性能提升,远超传统模型进步速度。 推理模型的兴起带来了多大的范式转变?深入研究了数据,发现至少在一些基准测试中,推理模型在算法上的进步可能与 icon
  • 一位顶尖AI研究员公开13个未完成的研究构想,涵盖缩放律本质、新预训练目标、环境算力分配、模型传承策略等,诚邀社区共同探索,推动大模型科学前进。 那些看起来“理所当然”的AI规律,其实可能根本就是错的?今天咱们要聊的,不是什么“AI取代人类”的老掉 icon
  • 《强化学习的荒诞悲剧:当阿拉丁神灯又被塞回瓶子里》 ——论学术界如何用"严谨"谋杀了AI最有潜力的分支 (一)黄金时代:当强化学习还是个热血少年2017年的强化学习(RL)就像刚拿到超能力的中二病少年,整天 icon
  • 我们证明,主动学习 + 转录组扰动可以指导下一步运行哪些实验,从而将表型命中率>提高 13 倍。人工智能不仅能预测生物,还能设计生物。 未来的新药研发可能不再靠“大海捞针”,而是靠AI精准“钓鱼”?这项研究彻底颠覆了传统药物筛选的方式——它用一种叫 icon
  • 2025年9月初,丰田研究所的一群科学家在《科学·机器人》上发表了一项让人眼前一亮的研究:他们训练出一个能像人一样用整个身体搬运大件物品的机器人,而教会它这些动作,只需要一次示范。 是的,就一次,就像你教爸妈用手机发微信那样,点一下、做一遍,它就懂 icon
  • RL环境本质是包含环境、起始状态与验证器的标准化编程考场,确保AI能力评估公平可测,推动AI从聊天走向真实工程实践。 强化学习(RL)里的“环境”到底是什么!别被那些术语吓到,其实它根本没那么玄乎,说白了,就是一个超级公平、超级严格的“AI编程模拟考场”! icon