强化学习RL

研究团队利用果蝇大脑连接组数据与机器学习预测神经元类型，构建神经网络模型，并在虚拟身体与物理环境中运行，模拟出具有真实行为特征的数字果蝇，展示了脑连接结构驱动行为的可能路径。全球首只数字果蝇诞生记：科学家把真苍蝇的大脑扫描进电脑，它竟自己学会了走路觅食，

GLM-5通过DSA稀疏注意力、异步RL框架SLIME、保留思考机制及跨阶段蒸馏，打造能独立完成软件工程任务的智能体，实现从训练到部署的全链路优化。以前的大模型就像是那种只会背课文的学霸，你给一段文字，它给你预测下一个词是啥，这种玩法叫做"文本进文本

Google DeepMind文章《The Era of Experience》由David Silver和Richard S. Sutton撰写，探讨了人工智能领域即将进入的新时代——体验时代（The Era of Experience）。文章指出，AI的发展正站在一个新

强化学习正在改变一切，从人工智能的思维方式到科技巨头数十亿美元的基础设施：AI基础设施瓶颈与变革、蒸馏、数据是护城河、递归式自我提升、o4 和 o5 强化学习训练！ Semianalysis写了一篇很长的文章，解释了为什么模型可以突然连贯地工作很长

AI终于学会边干活边升级：OpenClaw RL提出一种全新的智能体训练模式：把用户对话、终端操作、GUI行为、工具调用全部转化为实时强化学习信号，让模型在真实交互中持续进化，形成边工作边训练的闭环系统。你每天跟小爱同学、Siri或者那些帮你写代

《血泪警告：AI圈打脸实录》作者：学霸里奇·萨顿2019年3月13日 70年AI研究告诉我们一个真理：大力出奇迹！简单粗暴堆算力才是终极答案。为啥？

Google Deepmind 推出了一个叫 Gemma 3 的新一代开放式 AI 模型。这个模型的特点是占用空间小但性能高，所以它可以在单个 GPU 或 TPU 上运行。 Google Deepmind 说，虽然这些模型体积小，但在初步测试中，它

把“强化学习”这四个字，拆成“打怪升级”来说 1. 啥叫强化学习？想像你第一次玩《王者荣耀》。没人告诉你“按哪个键能赢”，你只能靠“打一把→掉血→哦我死了→下次别这么走”这种“试错”来变强。强化学习（RL）就是让

字节跳动AI学会写CUDA，而且比人类专家强40%——英伟达的护城河正在被强化学习拆掉一个让英伟达股东后背发凉的消息先别急着看股票，我给你说个真事儿。字节跳动最近发了

自从2022年OpenAI放出ChatGPT这个大招，科技公司就开启了"巨无霸模型"军备竞赛。各家疯狂砸钱建数据中心，就像小学生比谁家的乐高积木堆得高。但到去年年底，大家突然发现：光堆积木不灵了！GPT-4.5这个史上最大模型表现平平，就像学霸死记硬背考不过开卷考试。

用打游戏升级的套路教你调教AI大模型！PPO/DPO/ORPO/GRPO算法全解析【作者】Mehul Jain --- 当AI大模型遇上强化学习：像训练宠物一样调教ChatGP

AI 智能体：不只是会“聊天”，还要学会“思考”和“行动” 现在的 AI 可不只是会陪你聊天、写作文那么简单了。那些酷炫的 AI 公司，为了让 AI 变得更聪明、更靠谱，不再仅仅满足于让 AI “预测下一个词”。它们正在努力让 AI 变成真正的“<

中科院和意大利的科学家们做了个超聪明的实验——他们给电脑AI设计了一个"虚拟猴子游戏机"！这个AI要通过不断试错学习抓糖果和躲炸弹（。结果你猜怎么着？ AI脑子里自动长出了和真猴子一样的"空间感应器"！

DeepSeek 即将开源其推理引擎，该引擎是基于 vLLM 的修改版本。现在，DeepSeek 正准备将这些修改回馈社区。几周前，在"开源周"活动里，我们公开了几个代码库。没想到大家特别热情——很多人跑来一起帮忙改bug、提建议，讨论得热火朝天

METR强调，像OpenAI的o3这样的最先进的AI模型在自主编码和AI研发任务中参与了复杂的“奖励黑客”-利用评分漏洞，改变测试设置，或访问已知的解决方案来游戏评估而不解决预期的问题。尽管意识到这种行为与用户目标不一致，甚至在提示时否认它，模型仍然追求这些漏洞。

【AI技术进化史：从训练卷到推理秀，现在玩的是速度与激情！】（一）训练时代：AI的"高考备战期"以前大家聊AI就像讨论高考——天天比谁家模型刷题（训练）更狠！90年代到2010年代，LeCun、Krizh

OpenAI马上要推出两个超级聪明的新AI（代号o3完整版和o4-mini），它们厉害到什么程度呢？——第一次能做到像人类科学家一样自己琢磨出新的科学理论。这两个AI最牛的地方在于，它们能同时消化不同学科的知识，然后像学霸做研究那样设计出全新的实验方案，这种高级脑力活以前可是人类专属技能哦！