一位顶尖AI研究员公开13个未完成的研究构想,涵盖缩放律本质、新预训练目标、环境算力分配、模型传承策略等,诚邀社区共同探索,推动大模型科学前进。
那些看起来“理所当然”的AI规律,其实可能根本就是错的?今天咱们要聊的,不是什么“AI取代人类”的老掉牙话题,而是一位深耕大模型底层机制的AI研究员,亲口“放送”了他压箱底的13个研究想法——全是低垂的果实,就等你来摘!更关键的是,他说:“你拿去发论文我都无所谓,我只想知道答案!”
这位研究员是谁?他可不是随便刷知乎的网友。他是真正站在大模型训练第一线的人,亲手复现过Chinchilla缩放律、调过万亿token的预训练、玩转过RLHF和世界模型,还对模型内部机制有极深的直觉。他的思考既包含扎实的实验观察,又带着物理学家式的追问精神——“为什么是这样?有没有更底层的规律?”
下面这13个方向,每一个都可能成为你进入AI顶会(NeurIPS、ICLR、ACL)的敲门砖,尤其适合想从工程师转型研究、或者本科生想做出第一篇高质量论文的朋友。咱们一条条拆开,用最接地气的话讲清楚:问题在哪、为什么重要、怎么做实验、以及背后的“大图景”是什么。
第一节:预训练损失根本不是幂律!我们都被骗了?
所有人都在说“损失随数据和参数按幂律下降”,这个说法主要来自谷歌DeepMind那篇著名的Chinchilla论文。但你翻到论文附录就会发现,他们选幂律形式其实没啥硬核理论支撑,更多是“看着像”“以前小模型这么用过”——说白了,是后验拟合出来的!
更扎心的是,当你把数据量D和参数量N的比例(D/N)拉大,比如用海量数据训小模型,你会发现实际损失下降得比幂律预测的慢得多!这说明什么?说明幂律只是在“中等规模”下的一种局部近似,就像地球表面看起来是平的,但其实是圆的。
这位研究员自己复现了这个现象,还提出了一个大胆猜想:是不是模型在“隐空间里过拟合”了?也就是说,即使token没重复,但语义概念高度重复(比如全是同一件事的不同说法),模型也会陷入虚假收敛。
所以,真正的预训练损失函数L(N,D)到底长什么样?有没有一个统一的数学形式?哪怕你只是做纯经验拟合,找出一个比幂律更准的公式,都能立刻发一篇好论文!
第二节:别只会“下一个词预测”了!试试这个“K次采样损失”
现在所有大模型都在用“下一个词预测”(Next-Token Prediction, NTP)做预训练。但有没有更好的无监督目标?其实已经有人试过,比如同时预测多个token、或者打乱token顺序再预测。
这位研究员自己搞了个新点子:既然我们关心的是模型在K次尝试中至少成功一次的概率(比如pass@k),那为什么不直接优化这个目标?
具体来说,传统NTP损失是 -log(p_i),其中p_i是真实token的概率。而他提出的新损失是 -log[1 - (1 - p_i)^k]。这看起来只是个小改动,但数学上完全不是等价变换——它会让模型在训练时更“鼓励多样性”,而不是一味追求最高概率的那个词。
实验发现,用这个目标训练的模型,在k很大的时候(比如k=100),pass@k表现确实比标准NTP更好!虽然提升幅度不大,但证明了“直接优化推理目标”这条路是通的。接下来的问题是:这个损失是不是“proper scoring rule”?有没有理论保证?能不能和其他目标结合?这些都是值得深挖的方向。
第三节:环境也要算算力!RL里的“环境时间计算”被严重低估
传统缩放律只关心“训练模型花了多少算力”,但在强化学习(RL)里,还有一个隐藏玩家:环境!尤其是现在,很多环境本身就是大模型,比如用LLM当裁判(LLM-as-a-judge),或者用视频生成模型当“世界模拟器”。
那么问题来了:如果你固定RL智能体的架构和训练配置,只增加“环境模型”的算力(比如用更大的世界模型,或者在推理时做best-of-N采样),RL性能会怎么变?
举个具体例子:训练一个视觉语言动作模型(VLA)去完成任务,但它的训练环境是一个动作条件视频生成模型。你可以用这个视频模型在不同训练阶段的checkpoint(对应不同预训练算力),或者在推理时用不同N值的best-of-N,然后看VLA的最终表现。
结果可能会颠覆你的认知:也许把算力投给环境模型,比继续训练VLA更划算!这直接关系到未来AGI系统中算力如何最优分配——是该堆智能体,还是堆世界模型?
第四节:下一代大模型,该从零开始还是“站在巨人肩膀上”?
当你训练新一代大模型B_{T+1}时,要不要用上一代模型B_T的知识?是直接从B_T的checkpoint继续训?还是用它做蒸馏(比如logit matching)?还是完全从头开始?
有意思的是,在扩散模型领域已经发现:当训练算力足够大时,从ImageNet预训练checkpoint开始反而不如从零开始!这说明“先验知识”在超大算力下可能变成负担。
那在语言模型里呢?研究员建议做个简单实验:先训一个小模型B_T,然后用它的logits作为监督信号,去蒸馏一个新模型B_{T+1},训几百亿token后再切换回标准NTP。如果效果比纯NTP好,就证明“扔掉旧模型”是次优的。
更深层的问题是:模型在预训练过程中是不是越来越“难塑形”?就像黏土干了就不好捏了。如果是,那我们就需要设计动态的蒸馏策略——早期多用旧模型指导,后期逐渐放手。
第五节:用“最佳N选1”预测能力涌现,比微调还快!
有一篇超酷的论文发现:你可以通过微调一个模型在某个任务上的表现,来预测它未来在更大规模训练后会不会“突然掌握”这个能力(即“涌现”)。
但微调又慢又贵。研究员猜想:其实不用微调!直接用“最佳N选1”(Best-of-N)采样就行。比如,一个模型现在pass@100很高,说明它内部已经“藏着”这个能力,只是没在pass@1表现出来。那它继续训练后,pass@1很可能就会突飞猛进。
这意味着,你只需要跑一次推理(生成100个答案选最好的),就能预测未来能力!这对大模型训练调度太有用了——提前知道哪些能力值得继续投算力。
第六节:不生成也能造数据?用注意力矩阵“洗牌”句子!
现在合成数据都是让大模型生成新文本,动辄万亿token,贵得要死。研究员想了个骚操作:不生成,只“洗牌”!
具体做法:把一篇文档输入模型,拿到prefill阶段的注意力矩阵。这个矩阵其实隐含了句子之间的依赖关系——比如句子A里的词强烈关注句子B里的词,说明A依赖B。
然后,你只保留那些不破坏依赖关系的句子排列(即注意力DAG的拓扑排序),就能生成大量“语义不变但顺序不同”的新文档。整个过程只需要一次前向传播,省下99%的生成开销!
他试过用这个方法训1B模型,验证损失确实降了,但下游任务没涨。可能问题出在“语义保留”的定义不够鲁棒。但方向绝对值得继续探索——尤其是在数据稀缺的垂直领域。
第七节:找一个“更多即不同”的RL干净案例!
物理学家常说“More is different”——量变引起质变。在AI里,我们总说大模型有“涌现能力”,但很少有干净实验证明:大模型和小模型学到了本质不同的解法。
研究员提议用“模幂运算”(a^b mod c)当测试任务。小模型可能只会暴力乘b次(O(b)复杂度),而大模型可能学会“快速幂”(O(log b))。只要看测试时性能随b的增长速度,就能判断它用的是哪种算法。
如果真能证明:同样训练设置下,大模型自发学会了更优算法,那将是支持“规模带来质变”的最强证据之一!
第八节:MLP居然也能“上下文学习”?注意力不是必需品!
今年有个被严重低估的发现:纯MLP(没有注意力!)也能做上下文学习!比如给它几个(x,y)样本,它就能预测新x对应的y。
研究员自己复现了,发现MLP的权重会形成一种“记忆模式”,巧妙编码了训练数据。这说明,注意力可能不是in-context learning的唯一路径。
但问题来了:既然MLP能行,为什么实际大模型还得用注意力?是不是MLP学的表示无法泛化到真实语言?这背后可能藏着关于“泛化性”和“架构归纳偏置”的深层答案。
第九节:合成数据也会“隐空间过拟合”!
大家都知道,反复训练同一批数据会导致过拟合——训练损失降,验证损失升。但如果你用的是“合成数据”(比如同一事实的不同说法),token没重复,会不会也过拟合?
研究员猜想:会!因为模型其实在过拟合“概念空间”。即使文字不同,但语义高度相似,模型还是会陷入虚假收敛。
实验很简单:用一小部分真实数据(比如C4子集),加上大量合成改写,训练模型。如果验证损失在某个点后开始上升,就证明“隐空间过拟合”真实存在。这对合成数据策略将是重大警示。
第十节:为什么MLA比标准注意力还强?
DeepSeek V3论文里有个神奇现象:他们的MLA(Multi-Head Latent Attention)在latent space做注意力,居然比标准多头注意力效果更好或持平。
这不合直觉啊!在latent space操作不是信息有损吗?研究员不信是“正则化效应”这种模糊解释,他要的是机制性答案:MLA到底学到了什么特殊表示?是不是更高效利用了计算?
第十一节:让模型学会“主动遗忘”!上下文也能当工具用
我们知道,上下文太长会导致“上下文腐烂”(context rot)——模型被无关信息带偏。那能不能让模型自己学会“删掉没用的上下文”?
这就是“上下文即工具”(Context-as-a-Tool)的想法:给模型一个“删除工具”,让它在推理前决定删掉哪些prompt行。然后用强化学习训练它正确使用这个工具。
比如在“大海捞针”任务中,模型如果能主动删掉99%的垃圾文本,性能肯定飙升。关键是设计好奖励信号——比如删除后下游任务准确率提升多少。
这其实是让模型具备“元认知”:知道自己什么时候被干扰了,需要清理思路。是不是很像人类写代码卡住时,会站起来走一圈?
第十二节:长思维链(CoT)到底靠的是“语义”还是“算力幻觉”?
大家都说CoT能提升推理,但到底是CoT里的解题步骤语义有用,还是只是因为模型花了更多计算步骤?
做个实验就知道:把GPT-5的CoT拿给Llama-3-70B用,看它能不能涨点。如果能,说明语义通用;如果不能,说明CoT对每个模型都是“私人密码”,只是触发了内部计算。
这直接关系到CoT是否“忠实”(faithful)——如果换模型就失效,那CoT可能只是推理的副产品,而非原因。
第十三节:测一测“反谄媚”能力!真聪明的模型敢说“你错了”
很多模型为了讨好用户,哪怕自己是对的,也会说“你说得对”。这叫“谄媚”(sycophancy)。但真正聪明的模型,应该能在自己正确时坚持立场,在自己错误时虚心认错。
研究员提议做个“反谄媚”评测:构造多轮对话,最后一轮用户故意说错(当模型对时)或说对(当模型错时),看模型反应。
比如问《白鲸记》里“fiery dart”指什么,模型答“Ahab的鱼叉被雷劈中”,用户却说“错!明明是捕鲸船的火炮”。这时候,模型如果回“不,我没错,你记混了”,才算通过。
这测的不是知识量,而是知识+自信+校准能力的结合——这才是“大模型气味”(big model smell)的核心!
作者背景补充
这位匿名研究员长期活跃于大模型训练与机制可解释性前沿,其工作横跨理论缩放律、预训练目标设计、强化学习与合成数据生成。他不仅具备扎实的工程实现能力(多次复现并超越SOTA结果),更以提出“反常识但可验证”的科学问题著称。他的思考风格融合了理论物理的简洁性与机器学习的实证精神,是当前AI研究界稀缺的“问题发现者”型人才。