Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
强化学习RL
中国开源AII凭借“专家混合”架构实现效率与成本双重碾压
中国AI凭借“专家混合”架构实现效率与成本双重碾压,开源模型全面领先,西方巨头被迫重新定义护城河。 本文作者 Nilesh Jasani 是 GenInnov 研究机构首席科技趋势分析师,长期追踪全球人工智能、半导体与算力基础设施的交叉演进。其团队
Kimi K2用“粗糙打分法”打破RL魔咒写出更好文章
Moonshot团队通过构建非完美但结构化的评分规则,在强化学习中有效规避奖励作弊,使Kimi K2在情感智能与创意写作领域登顶全球榜单。 作者背景:Drew Breunig是知名AI技术分析博主,长期聚焦大模型训练机制、合成数据策略与强化学习应用,其深度
线性注意力革命爆发!Kimi Linear横扫长短上下文,6倍速、75%缓存压
Kimi Linear凭借创新的KDA机制与混合架构,在长短上下文及强化学习任务中全面超越传统注意力,实现6倍推理速度与75%缓存压缩,开启高效大模型新纪元。 比完整注意力(Full Attention)更快更好的新架构,而且已经像 Kimi 那样
通用验证器成GPT5核武级大杀器 或再领风骚
GPT-5内置通用验证器:GPT-5最大的变化是搞了个新的强化学习流程,背后靠的是一个新加入的“通用验证器”。你可以把这个验证器看作是和生成器并排站着的另一个模型,就像它的搭档。当GPT-5先出一个初步答案后,这个验证器就会重新读一遍生成器的思考过程和最
谷歌新算法让AI边犯错边进化,算力省90%还能干翻千亿大模型
谷歌DeepMind提出广义知识蒸馏(GKD),通过策略内自生成样本与教师反馈结合,显著提升小模型性能,兼容强化学习,解决传统蒸馏的分布错配问题。 现在训练大模型,其实浪费了大量算力! 谷歌DeepMind最新论文提出了一种叫“策略内蒸馏”(On
全网唱衰AGI:两大AI掌门人力挺持续学习
两位AI顶尖科学家指出,持续学习并非不可逾越的障碍,随着规模扩展与范式革新,AGI进展可能远超当前悲观预期。 最近X平台上一片悲观情绪,大家都在说:AGI(通用人工智能)短期内没戏了!理由嘛,就是现在的AI模型根本做不到“持续学习”——学完新东西就忘旧
Cursor和Windsurf编程智能体公司为何集体转向“中等智商+超高速”路线
Cursor 和 Windsurf 代码智能体公司转向“中等智商+超高速”路线,并非否定智能,而是因自研基座模型成本过高;依托中国开源大模型微调与推理优化,成为务实高效的技术路径。 作者背景介绍: 本文作者是长期深耕大模型训练与推理架构设计的资深
代码界的超跑:Cursor的Composer用强化学习碾压同行,快4倍还能自己写测试!
Cursor团队发布全新智能编程代理Composer,基于强化学习与MoE架构,在真实开发场景中快4倍、更聪明,重新定义高效编码。 程序员可能不再是从零开始敲代码,而是和一个超级智能体并肩作战?这个智能体不仅能读懂你整个项目,还能自动修复bug、写单元测试
rStar 2-Agent:微软小巧精悍的14B模型智能体
一个140亿参数的模型,竟然能在数学推理上干翻一个6710亿参数的“巨无霸”?这事儿听起来像不像“小学生打赢了职业拳王”?但就在最近,微软研究院真的做到了。 他们没靠堆数据、没靠堆算力,而是用一套叫 rStar2-Agent 的新方法,让一个小巧精
xAI的Colossus 2:世界上第一个千兆瓦超算中心,独特RL方法
马斯克的xAI正打造全球首个千兆瓦级超算数据中心Colossus 2,通过跨州供电、与Solaris合作自建电厂、布局中东融资等方式突破算力瓶颈,并采用独特强化学习路径冲击AGI,展现出超越对手的全面战略布局。 马斯克的AI公司“xAI”正在悄悄干一件惊天
更先进BF16训练强化学习RL竟然总崩盘?切换回FP16成救命稻草!
Sea AI Lab与新加坡国立大学发现,RL训练不稳的根源竟是精度格式问题,将BF16切换为FP16即可显著提升训练稳定性与部署一致性,引发Andrej Karpathy等大神实测验证。 —— 最近大模型训练越
驾照末日!特斯拉FSD14把人类司机按在地上摩擦
特斯拉FSD14以50亿参数、混合专家、强化学习三重暴击,实现比人类安全17倍的无人驾驶,全球Robotaxi牌照已开闸,驾照即将成收藏品。 FSD14不是升级,是“借尸还魂” 别再以为14就是13打补丁!大错特
算法 vs. 算力:推理算法进步堪比10倍算力暴涨!
推理模型通过算法创新,在数学和科学任务上实现相当于10倍训练算力的性能提升,远超传统模型进步速度。 推理模型的兴起带来了多大的范式转变?深入研究了数据,发现至少在一些基准测试中,推理模型在算法上的进步可能与
大模型底层真相被高估:13个颠覆性研究方向公开等你来验证!
一位顶尖AI研究员公开13个未完成的研究构想,涵盖缩放律本质、新预训练目标、环境算力分配、模型传承策略等,诚邀社区共同探索,推动大模型科学前进。 那些看起来“理所当然”的AI规律,其实可能根本就是错的?今天咱们要聊的,不是什么“AI取代人类”的老掉
强化学习的悲剧:一场学术自嗨的慢性自杀
《强化学习的荒诞悲剧:当阿拉丁神灯又被塞回瓶子里》 ——论学术界如何用"严谨"谋杀了AI最有潜力的分支 (一)黄金时代:当强化学习还是个热血少年2017年的强化学习(RL)就像刚拿到超能力的中二病少年,整天
新药研发告别盲筛:主动学习 + 转录组扰动=13倍命中率飙升
我们证明,主动学习 + 转录组扰动可以指导下一步运行哪些实验,从而将表型命中率>提高 13 倍。人工智能不仅能预测生物,还能设计生物。 未来的新药研发可能不再靠“大海捞针”,而是靠AI精准“钓鱼”?这项研究彻底颠覆了传统药物筛选的方式——它用一种叫
无需经过精心编程Punyo机器人只看一次就学会
2025年9月初,丰田研究所的一群科学家在《科学·机器人》上发表了一项让人眼前一亮的研究:他们训练出一个能像人一样用整个身体搬运大件物品的机器人,而教会它这些动作,只需要一次示范。 是的,就一次,就像你教爸妈用手机发微信那样,点一下、做一遍,它就懂
揭秘强化学习背后那个决定生死的“虚拟考场”!
RL环境本质是包含环境、起始状态与验证器的标准化编程考场,确保AI能力评估公平可测,推动AI从聊天走向真实工程实践。 强化学习(RL)里的“环境”到底是什么!别被那些术语吓到,其实它根本没那么玄乎,说白了,就是一个超级公平、超级严格的“AI编程模拟考场”!
下页
关闭