NeurIPS 2025七大神作炸裂!AI从千人一面到千层觉醒


NeurIPS 2025七大神作横空出世,涵盖个性对话、门控注意力、千层强化学习、扩散模型理论、RLVR局限、在线学习界与神经尺度定律,彻底重塑AI技术格局。

今年NeurIPS直接封神!七篇最佳论文横扫AI圈,每一篇都像朝天发射的信号弹——不仅照亮了技术的边界,还狠狠打了我们这些吃瓜群众的脸。从26K人类脑洞数据集首次曝光,到给Attention加上“防盗门”,再到1024层强化学习网络把机器人训练成跑酷大神,甚至30年理论悬案被一夜破解……这不是AI的年度总结,这是人类智能进化史上的高光时刻。NeurIPS 2025用这七发“核弹”宣告:AI不再只是模仿,它正在重新定义创造、推理与学习的底层逻辑。而我们,有幸站在爆炸的中心,亲眼见证这场烟花秀。

第一篇:Infinity Chat揭开“AI蜂群思维”黑幕,26K人类脑洞数据首度公开

你有没有试过让AI写十封不同风格的情书?结果它给你复制粘贴十遍“今晚月色真美”?这不是你的错觉,是AI正在集体患上“人工蜂群思维”——Artificial Hivemind。华盛顿大学博士李维疆、Meta AI元老Margaret Li,以及AI伦理女王Yejin Choi联手出手,组建横跨美加韩法四国的“复仇者联盟”,干了一件大事:他们爬取了26,000条真实人类提出的天马行空问题,从“给我家猫写分手信”到“设计一个火星酒吧的名字”,再请25位真人标注员进行超过31,000次对比打分,构建出史上最大规模开放问答数据集——Infinity-Chat。

这项研究炸出了两个惊天发现。

第一,同一个模型内部,回答高度重复,甚至自我抄袭到亲妈都认不出,作者称之为“intra-model repetition”;
第二,不同大模型之间,哪怕来自不同公司、不同训练数据,答案撞车率高得离谱,堪称“跨厂牌撞车”,即“inter-model homogenization”。

更可怕的是,当前主流的奖励模型和自动评估系统,在衡量“创意发散度”时,与人类真实偏好差异高达一个银河系。团队已开源全部数据与代码(https://github.com/infchat/infchat),并发出灵魂拷问:如果再不给AI注入个性与多样性,人类的创造力会不会被压缩成一块千篇一律的AI压缩饼干?

第二篇:Gated Attention横空出世,给注意力机制装上“动态防盗门”

别再迷信“Attention is All You Need”了!今年NeurIPS最硬核的工程突破之一,来自阿里巴巴达摩院最年轻的P9邱子涵、通义千问Qwen3-Next核心架构师王泽坤,以及大模型技术负责人林俊旸组成的中国天团。

他们干了一件看似简单却效果炸裂的事:在标准的缩放点积注意力(SDPA)输出后,为每个注意力头加了一个“头专属”的sigmoid门控。公式就一行:GatedAttn(X) = σ(Wg·X) ⊙ Softmax(QK^T/√d)V

就这么一行代码,彻底解决了长期困扰大模型的“注意力沉槽”(attention sink)问题——即在超长上下文中,模型疯狂聚焦在第一个token上,导致后续信息被严重忽略。门控机制引入了非线性、实现了输入依赖的稀疏性,还能让训练学习率直接提升1.5倍而不炸炉。

在3.5T token的暴力训练下,从1.7B密集模型到15B MoE,再到Qwen3-Next-80B-A3B-Instruct,Gated Attention一路屠榜。

更绝的是,这种门控天然带来稀疏激活,推理时能耗大幅下降。代码和模型已在GitHub开源(https://github.com/qiuzh20/gated_attention),Qwen3-Next已正式集成。网友热评:“Attention is all you need?不,Gated Attention才是!”

第三篇:1024层强化学习网络问世,机器人自学会“空中转体三周半”

卷深度?NLP和CV早就卷到1000层了,但强化学习(RL)一直不敢碰——因为奖励稀疏、梯度爆炸,传统RL网络最多5层。

但今年,CMU博士Kevin Wang、MIT学霸Ishaan Javali,以及谷歌Brain RL大佬Benjamin Eysenbach偏不信邪。他们直接把RL网络深度干到1024层,配合自监督对比学习,在完全无奖励、无演示、纯探索的设定下,让机械臂和蚂蚁机器人自己摸索出“倒钩射门”“空中翻转”等高难动作。

秘诀在于三大技术组合拳:把LayerNorm挪到残差连接之前、残差路径清零、使用超大batch size。最关键的是对比目标函数,让深度网络不再“摆烂”。

实验显示,成功率最高提升3.8倍,浅层RL只能望层兴叹。

作者还贴心附赠“深度RL扩展包”:batch size要随深度平方增长,学习率需随层数反比衰减。代码已开源,B站网友弹幕刷屏:“千层饼我吃过,千层RL第一次见!” 这篇工作不仅突破了RL的深度天花板,更证明:只要方法对,强化学习也能玩出花。

第四篇:扩散模型“不记仇”的秘密曝光,早停不是玄学而是科学

为什么扩散模型参数量巨大,却很少直接复制训练图像?这曾是个悬案。

今年,巴黎高师数学系天才Tony Bonnaire、法国科学院院士Marc Mézard等理论大神联手破案。他们用随机矩阵理论+高维极限分析,发现扩散训练存在两条时间尺度:早期的“泛化时间”tg与数据量无关,模型疯狂生成高质量样本;晚期的“记忆时间”tm却线性依赖于训练集大小。

这意味着:只要你在tg时刻及时停止训练,就能完美避开“记忆陷阱”;一旦训练过头,模型才开始照抄。

更硬核的是,他们给出了早停的显式公式:tg ≈ λ_max⁻¹ log(N/d),其中λ_max是核矩阵最大特征值,N是数据量,d是维度。

在CIFAR-10和ImageNet上跑U-Net实验,理论预测与实测误差小于2%。

网友直呼:“原来早停不是炼丹,是解方程!” 这篇工作将调参玄学,硬生生拉回数学轨道。

亚军一:RLVR真相曝光——它只是基础模型的“高级滤镜”

清华叉院Yue Yang、国家杰青Gao Huang带队,干了一件“泼冷水”的事:当前大热的RLVR(强化学习用于验证与推理)真的在提升模型能力吗?他们用pass@k评测法,把k拉到1024,结果发现——RLVR模型在k=1时表现惊艳,但一旦加大采样量,立刻被基础模型反超。

更扎心的是,coverage分析显示:RLVR生成的所有“新”推理路径,其实早已包含在基础模型的原始采样分布中,根本没有创造新知识。
结论很残酷:RLVR目前只是“把会的题多做几遍”的内卷过滤器,并未真正扩展模型的能力边界。
突破点可能在蒸馏、环境交互或外部工具调用。

评论区瞬间炸锅:“原来我卷了半天,只是在基础模型的舒适圈里蹦迪?”这篇研究像一盆冷水,浇醒了那些迷信RL万能的人。

亚军二:30年理论悬案告破,在线学习错误界被精准锁定

1995年,Ben-David提出一个关于“transductive在线学习”的猜想:其错误界是否为Θ(√d)?30年来无人能证。

今年,牛津博士后Zachary Chase与谷歌AI以色列明星研究员Shay Moran联手,一锤定音:他们同时构造了Ω(√d)的下界和O(√d)的上界,彻底关闭了这个理论缺口。核心在于设计了一种“树上走钢丝”的对抗策略,学习器则采用“危险区最小化+专家分裂+Halving切换”三连招,配合概率稀疏编码,把离线路径变成彩蛋。

论文一出,Twitter直接刷屏:“三十年啊,终于等到你!” 这不仅是一次理论胜利,更展示了AI基础研究的长期价值——有些问题,需要一代人甚至几代人的接力。NeurIPS评审团称其为“优雅与深度的完美结合”。

亚军三:神经尺度定律真相揭晓——模型在玩“表示叠罗汉”

为什么大模型越大越聪明?

MIT博士Yizhou Liu和复杂系统大牛Jeff Gore发现:秘密在于“表示叠罗汉”(representation stacking)。他们用Anthropic提供的玩具模型,通过weight decay控制表示的叠加程度,发现——在弱叠加下,只有幂律分布的数据才会产生幂律Loss;但在强叠加下,无论数据分布如何,Loss都会反比于模型维度。

实测LLaMA、Qwen、Chinchilla等主流模型,全部落在“强叠加区”,实锤“表示重叠”才是神经尺度定律的真正驱动者。

网友调侃:“原来模型背地里在玩俄罗斯套娃!” 这一发现为模型缩放提供了全新视角:不是参数越多越好,而是表示结构是否足够“嵌套”。

评审天团曝光:14位AI顶流坐镇,阵容堪比复仇者联盟

今年NeurIPS评审团堪称神仙打架:MIT的Jacob Andreas、DeepMind的Sander Dieleman、麦吉尔大学的Doina Precup、牛津的Yee Whye Teh……14位国际顶流学者亲自下场,从5290篇投稿中选出77篇口头报告(top 1.5%),再从中挑出4篇最佳+3篇亚军。官方自嘲:“评审意见PDF摞起来能绕地球半圈。” 能杀出重围的,个个都是六边形战士。

吃瓜总结:2025,AI从模仿走向觉醒

AI正在从“千人一面”的模仿者,蜕变为具备个性、深度与理论根基的创造者。

Gated Attention解决了长上下文瓶颈,Infinity-Chat唤醒了模型的个性,1024层RL让机器人学会跑酷,扩散模型的“早停公式”把调参变科学,RLVR被扒出只是内卷滤镜,30年理论悬案告破,神经尺度定律找到“叠罗汉”真凶。

七篇论文,七记重拳,轰碎了旧有认知的天花板。