Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
强化学习RL
强化学习:AI推理游戏的颠覆性突破引擎
强化学习正在改变一切,从人工智能的思维方式到科技巨头数十亿美元的基础设施:AI基础设施瓶颈与变革、蒸馏、数据是护城河、递归式自我提升、o4 和 o5 强化学习训练! Semianalysis写了一篇很长的文章,解释了为什么模型可以突然连贯地工作很长
国产大模型智谱GLM-5强化学习架构解析
GLM-5通过DSA稀疏注意力、异步RL框架SLIME、保留思考机制及跨阶段蒸馏,打造能独立完成软件工程任务的智能体,实现从训练到部署的全链路优化。 以前的大模型就像是那种只会背课文的学霸,你给一段文字,它给你预测下一个词是啥,这种玩法叫做"文本进文本
数字果蝇诞生记:Eonsys用真实大脑连接组打造虚拟生命
研究团队利用果蝇大脑连接组数据与机器学习预测神经元类型,构建神经网络模型,并在虚拟身体与物理环境中运行,模拟出具有真实行为特征的数字果蝇,展示了脑连接结构驱动行为的可能路径。 全球首只数字果蝇诞生记:科学家把真苍蝇的大脑扫描进电脑,它竟自己学会了走路觅食,
OpenClaw RL把每句话都变成训练燃料:每一次交互都成为强化学习信号
AI终于学会边干活边升级:OpenClaw RL提出一种全新的智能体训练模式:把用户对话、终端操作、GUI行为、工具调用全部转化为实时强化学习信号,让模型在真实交互中持续进化,形成边工作边训练的闭环系统。 你每天跟小爱同学、Siri或者那些帮你写代
阿里Qwen经强化学习逼近顶尖推理水平
我们研究了小型开放权重语言模型是否可通过强化学习达到顶尖推理水平。使用GRPO方法和精选参数训练Qwen模型后,性能显著提升,接近前沿水平且成本更低。仅需16个训练示例,性能提升10-15%。我们分享了任务设计、超参数选择和基于torchtune的训练方法,所有资源免费开放。点击标题见原文。
谷歌AI宣言:欢迎来到体验时代
Google DeepMind文章《The Era of Experience》由David Silver和Richard S. Sutton撰写,探讨了人工智能领域即将进入的新时代——体验时代(The Era of Experience)。 文章指出,AI的发展正站在一个新
思维链已过时?元认知才是AI未来
自从2022年OpenAI放出ChatGPT这个大招,科技公司就开启了"巨无霸模型"军备竞赛。各家疯狂砸钱建数据中心,就像小学生比谁家的乐高积木堆得高。但到去年年底,大家突然发现:光堆积木不灵了!GPT-4.5这个史上最大模型表现平平,就像学霸死记硬背考不过开卷考试。
谷歌发布全新Gemma 3小模型系列
Google Deepmind 推出了一个叫 Gemma 3 的新一代开放式 AI 模型。这个模型的特点是占用空间小但性能高,所以它可以在单个 GPU 或 TPU 上运行。 Google Deepmind 说,虽然这些模型体积小,但在初步测试中,它
Llama4参数虚高,推理依旧拉胯!
70年AI史:大力出奇迹
《血泪警告:AI圈打脸实录》作者:学霸里奇·萨顿2019年3月13日 70年AI研究告诉我们一个真理:大力出奇迹! 简单粗暴堆算力才是终极答案。 为啥?
MIT学霸亲授:这才是强化学习RL正确打开方式
把“强化学习”这四个字,拆成“打怪升级”来说 1. 啥叫强化学习? 想像你第一次玩《王者荣耀》。没人告诉你“按哪个键能赢”,你只能靠“打一把→掉血→哦我死了→下次别这么走”这种“试错”来变强。 强化学习(RL)就是让
强化学习:让机器从犯错中学会思考和行动
AI 智能体:不只是会“聊天”,还要学会“思考”和“行动” 现在的 AI 可不只是会陪你聊天、写作文那么简单了。那些酷炫的 AI 公司,为了让 AI 变得更聪明、更靠谱,不再仅仅满足于让 AI “预测下一个词”。它们正在努力让 AI 变成真正的“<
PPO/DPO/ORPO三连击:大模型强化训练秘籍
用打游戏升级的套路教你调教AI大模型!PPO/DPO/ORPO/GRPO算法全解析【作者】Mehul Jain --- 当AI大模型遇上强化学习:像训练宠物一样调教ChatGP
神经网络首次再现人脑近身感知的场景智能
中科院和意大利的科学家们做了个超聪明的实验——他们给电脑AI设计了一个"虚拟猴子游戏机"!这个AI要通过不断试错学习抓糖果和躲炸弹(。 结果你猜怎么着? AI脑子里自动长出了和真猴子一样的"空间感应器"!
DeepSeek可能将开源其推理引擎
DeepSeek 即将开源其推理引擎,该引擎是基于 vLLM 的修改版本。现在,DeepSeek 正准备将这些修改回馈社区。 几周前,在"开源周"活动里,我们公开了几个代码库。没想到大家特别热情——很多人跑来一起帮忙改bug、提建议,讨论得热火朝天
前沿AI模型严重内卷:奖励黑客成行业潜规则
METR强调,像OpenAI的o3这样的最先进的AI模型在自主编码和AI研发任务中参与了复杂的“奖励黑客”-利用评分漏洞,改变测试设置,或访问已知的解决方案来游戏评估而不解决预期的问题。尽管意识到这种行为与用户目标不一致,甚至在提示时否认它,模型仍然追求这些漏洞。
AI从训练卷到推理秀,现在玩的是速度与激情!
【AI技术进化史:从训练卷到推理秀,现在玩的是速度与激情!】 (一)训练时代:AI的"高考备战期"以前大家聊AI就像讨论高考——天天比谁家模型刷题(训练)更狠!90年代到2010年代,LeCun、Krizh
OpenAI即将发布全新推理模型o4-mini
OpenAI马上要推出两个超级聪明的新AI(代号o3完整版和o4-mini),它们厉害到什么程度呢?——第一次能做到像人类科学家一样自己琢磨出新的科学理论。这两个AI最牛的地方在于,它们能同时消化不同学科的知识,然后像学霸做研究那样设计出全新的实验方案,这种高级脑力活以前可是人类专属技能哦!
下页