Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
强化学习RL
强化学习:AI推理游戏的颠覆性突破引擎
强化学习正在改变一切,从人工智能的思维方式到科技巨头数十亿美元的基础设施:AI基础设施瓶颈与变革、蒸馏、数据是护城河、递归式自我提升、o4 和 o5 强化学习训练! Semianalysis写了一篇很长的文章,解释了为什么模型可以突然连贯地工作很长
通用验证器成GPT5核武级大杀器 或再领风骚
GPT-5内置通用验证器:GPT-5最大的变化是搞了个新的强化学习流程,背后靠的是一个新加入的“通用验证器”。你可以把这个验证器看作是和生成器并排站着的另一个模型,就像它的搭档。当GPT-5先出一个初步答案后,这个验证器就会重新读一遍生成器的思考过程和最
rStar 2-Agent:微软小巧精悍的14B模型智能体
一个140亿参数的模型,竟然能在数学推理上干翻一个6710亿参数的“巨无霸”?这事儿听起来像不像“小学生打赢了职业拳王”?但就在最近,微软研究院真的做到了。 他们没靠堆数据、没靠堆算力,而是用一套叫 rStar2-Agent 的新方法,让一个小巧精
谷歌AI宣言:欢迎来到体验时代
Google DeepMind文章《The Era of Experience》由David Silver和Richard S. Sutton撰写,探讨了人工智能领域即将进入的新时代——体验时代(The Era of Experience)。 文章指出,AI的发展正站在一个新
xAI的Colossus 2:世界上第一个千兆瓦超算中心,独特RL方法
马斯克的xAI正打造全球首个千兆瓦级超算数据中心Colossus 2,通过跨州供电、与Solaris合作自建电厂、布局中东融资等方式突破算力瓶颈,并采用独特强化学习路径冲击AGI,展现出超越对手的全面战略布局。 马斯克的AI公司“xAI”正在悄悄干一件惊天
思维链已过时?元认知才是AI未来
自从2022年OpenAI放出ChatGPT这个大招,科技公司就开启了"巨无霸模型"军备竞赛。各家疯狂砸钱建数据中心,就像小学生比谁家的乐高积木堆得高。但到去年年底,大家突然发现:光堆积木不灵了!GPT-4.5这个史上最大模型表现平平,就像学霸死记硬背考不过开卷考试。
告别人工标注!GRPO算法调教小模型全纪实
用强化学习调教小模型学会"动脑筋"——手把手带你用PyTorch训练GRPO推理模型作者:Avishek Biswas 最近,大模型们(DeepSeek-R1、Gemini-2.5、OpenAI-o1、Claude、Qwen3……)都流行“
PPO/DPO/ORPO三连击:大模型强化训练秘籍
用打游戏升级的套路教你调教AI大模型!PPO/DPO/ORPO/GRPO算法全解析【作者】Mehul Jain --- 当AI大模型遇上强化学习:像训练宠物一样调教ChatGP
MIT学霸亲授:这才是强化学习RL正确打开方式
把“强化学习”这四个字,拆成“打怪升级”来说 1. 啥叫强化学习? 想像你第一次玩《王者荣耀》。没人告诉你“按哪个键能赢”,你只能靠“打一把→掉血→哦我死了→下次别这么走”这种“试错”来变强。 强化学习(RL)就是让
70年AI史:大力出奇迹
《血泪警告:AI圈打脸实录》作者:学霸里奇·萨顿2019年3月13日 70年AI研究告诉我们一个真理:大力出奇迹! 简单粗暴堆算力才是终极答案。 为啥?
强化学习:让机器从犯错中学会思考和行动
AI 智能体:不只是会“聊天”,还要学会“思考”和“行动” 现在的 AI 可不只是会陪你聊天、写作文那么简单了。那些酷炫的 AI 公司,为了让 AI 变得更聪明、更靠谱,不再仅仅满足于让 AI “预测下一个词”。它们正在努力让 AI 变成真正的“<
算法 vs. 算力:推理算法进步堪比10倍算力暴涨!
推理模型通过算法创新,在数学和科学任务上实现相当于10倍训练算力的性能提升,远超传统模型进步速度。 推理模型的兴起带来了多大的范式转变?深入研究了数据,发现至少在一些基准测试中,推理模型在算法上的进步可能与
神经网络首次再现人脑近身感知的场景智能
中科院和意大利的科学家们做了个超聪明的实验——他们给电脑AI设计了一个"虚拟猴子游戏机"!这个AI要通过不断试错学习抓糖果和躲炸弹(。 结果你猜怎么着? AI脑子里自动长出了和真猴子一样的"空间感应器"!
强化学习的悲剧:一场学术自嗨的慢性自杀
《强化学习的荒诞悲剧:当阿拉丁神灯又被塞回瓶子里》 ——论学术界如何用"严谨"谋杀了AI最有潜力的分支 (一)黄金时代:当强化学习还是个热血少年2017年的强化学习(RL)就像刚拿到超能力的中二病少年,整天
前沿AI模型严重内卷:奖励黑客成行业潜规则
METR强调,像OpenAI的o3这样的最先进的AI模型在自主编码和AI研发任务中参与了复杂的“奖励黑客”-利用评分漏洞,改变测试设置,或访问已知的解决方案来游戏评估而不解决预期的问题。尽管意识到这种行为与用户目标不一致,甚至在提示时否认它,模型仍然追求这些漏洞。
无需经过精心编程Punyo机器人只看一次就学会
2025年9月初,丰田研究所的一群科学家在《科学·机器人》上发表了一项让人眼前一亮的研究:他们训练出一个能像人一样用整个身体搬运大件物品的机器人,而教会它这些动作,只需要一次示范。 是的,就一次,就像你教爸妈用手机发微信那样,点一下、做一遍,它就懂
AI从训练卷到推理秀,现在玩的是速度与激情!
【AI技术进化史:从训练卷到推理秀,现在玩的是速度与激情!】 (一)训练时代:AI的"高考备战期"以前大家聊AI就像讨论高考——天天比谁家模型刷题(训练)更狠!90年代到2010年代,LeCun、Krizh
OpenAI即将发布全新推理模型o4-mini
OpenAI马上要推出两个超级聪明的新AI(代号o3完整版和o4-mini),它们厉害到什么程度呢?——第一次能做到像人类科学家一样自己琢磨出新的科学理论。这两个AI最牛的地方在于,它们能同时消化不同学科的知识,然后像学霸做研究那样设计出全新的实验方案,这种高级脑力活以前可是人类专属技能哦!
上页
下页
关闭