杨立昆LeCun团队用数学证明等方高斯是自监督学习最优表征,提出LeJEPA框架:无Heuristic、线性复杂度、50行代码训出1.8B大模型,碾压DINOv2/3,终结SSL玄学时代。
就在我们还以为自监督学习(SSL)是大型炼丹现场、靠玄学调参拼人品的时候,Yann LeCun老爷子一记王炸直接掀了整张桌子!他联合布朗大学的Randall Balestriero,推出全新论文《LeJEPA:可证明、可扩展、无需启发式技巧的自监督学习》,彻底把JEPA(联合嵌入预测架构)从经验主义泥潭拉进了数学物理殿堂。
论文刚一公开,GitHub仓库就被疯狂fork,全球AI圈直接炸锅——因为这次,LeCun不是在调模型,他是在写定理!
他用整整30页证明告诉你:为什么你的JEPA训练总是塌陷、为什么你调三天loss还在蹦迪?因为你根本没搞懂“最优表征该长什么样”!而LeJEPA直接告诉你答案:等方高斯(isotropic Gaussian),才是宇宙唯一真理!
更炸裂的是,整个训练框架核心代码不到50行,PyTorch原生支持,DDP多卡同步全给你写好了,显存吃得比你早餐还少,但性能却能把DINOv2、DINOv3按在地上爆锤。
有Meta内部员工爆料:这极有可能是LeCun在FAIR(Meta基础人工智能研究实验室)的“谢幕之作”。
--
要理解LeJEPA为什么牛,得先懂JEPA有多难搞。
JEPA,全名Joint-Embedding Predictive Architecture,核心思想其实超简单:给你一张图,我随机遮一部分(比如打马赛克、crop、blur),模型看到完整图的embedding后,要去预测被遮住部分的embedding。
听起来是不是很像人脑?你看半张脸就能脑补全脸。但理想很丰满,现实直接塌成饼——模型发现最省力的方式,就是把所有图片都映射成同一个向量,这样预测误差永远是0!江湖人称“representation collapse”(表征塌陷)。
过去几年,大家怎么治?
Stop-gradient、teacher-student双网络、不对称增强、EMA动量更新、特征白化、负样本、超复杂调度器……像七龙珠一样集齐一堆heuristic,才勉强压住塌陷。
但问题是,这些技巧全是经验主义,换个数据集、换个模型,可能就翻车。
调参工程师天天加班,头发掉光,项目还上不了线。
而杨立昆LeCun老爷子拍案而起:够了!别再靠感觉了,咱们从第一性原理出发!他带领团队用严格的数学推导,先问:“如果我不提前知道下游任务是什么,我希望我的embedding分布长什么样?”答案让人震惊:无论下游是线性分类器、k近邻,还是核回归,等方高斯分布(isotropic Gaussian)都是唯一能最小化最坏情况(worst-case)预测风险的分布!
啥意思?就是它能在所有可能的下游任务里,都给你最稳、最均衡的表现。
这可不是嘴炮,论文里整整两节(Section 3.1 & 3.2)用引理+定理+证明层层递进,连偏导数都给你算明白。
网友调侃:这不就是“全宇宙最公平的插座”吗?不管你插头长啥样(下游任务),它都能稳稳接住,不打火、不松动。LeCun用行动告诉你:AI不是拼运气,是拼数学!
定理有了,怎么落地?
这才是LeJEPA最骚的地方。他们提出一个叫SIGReg(Sketched Isotropic Gaussian Regularization)的损失函数,直译就是“素描式等方高斯正则”。
听名字挺复杂,思路却简单到哭:高维空间不好搞?那我就随机抽一堆1D方向(比如1024个),把你的embedding往这些方向投影,变成一串1D向量。
然后我用一个叫Epps-Pulley的统计检验,看这些1D投影是不是符合标准正态分布。
如果不是,我就罚你!罚到你“从里到外”都变成高斯!
这招妙在哪?
第一,计算复杂度线性!投影+统计检验全是O(N)操作,batch size再大也不怕。
第二,梯度有界!论文里专门用Theorem 4证明了梯度不会爆炸,训练稳如老狗。
第三,分布式亲妈!代码里用all_reduce聚合特征函数,多卡同步零障碍。
最离谱的是,作者把SIGReg的PyTorch实现直接印在论文里(Algorithm 1),核心就30行:
python
def SIGReg(x, global_step, num_slices=256):
dev = dict(device=x.device)
g = torch.Generator(dev)
g.manual_seed(global_step)
proj_shape = (x.size(1), num_slices)
A = torch.randn(proj_shape, generator=g, dev)
A /= A.norm(p=2, dim=0)
t = torch.linspace(-5, 5, 17, dev)
exp_f = torch.exp(-0.5 * t 2)
x_t = x.unsqueeze(2) * t
ecf = (1j * x_t).exp().mean(0)
ecf = all_reduce(ecf, op="AVG")
err = (ecf - exp_f).abs().square().mul(exp_f)
N = x.size(0) * world_size
T = torch.trapz(err, t, dim=1) * N
return T
你看,连种子同步、多卡通信、积分近似全给你写死了。复制粘贴,改个模型,就能跑!更骚的是,他们证明(Theorem 5):只要你的网络输出够“光滑”(Sobolev正则性高),哪怕只抽16个方向,SGD每步都重采样,累积下来效果堪比抽几千个!实验证明:D=1024维的embedding,只用M=16个方向,SIGReg也能精准揪出塌陷的两个维度,把它掰回高斯分布。这操作,比你妈还懂你!
光说不练假把式,LeJEPA的实验直接把人看傻。
第一,ImageNet-1K上,ViT-H/14 backbone,线性probe直接干到79%,和DINOv2肩并肩,但训练简单到哭——不需要teacher、不需要stop-gradient、不需要调100个超参。
第二,小众数据集Galaxy10(天体图像分类,只有1.1万张图),LeJEPA直接原地起飞:ResNet-34预训练+线性probe,准确率83.28%,而DINOv2 ViT-S只能拿78.34%,DINOv3 ViT-S也才81.60%。这意味着:领域专属SSL,碾压通用大模型迁移!
第三,极端案例flowers102,只有1020张训练图,LeJEPA用ResNeXt-26ts预训练,准确率飙到82.19%,而/inet22k上预训练的I-JEPA ViT-H(630M参数)也才85.76%——但人家参数量是你80倍!
更离谱的是,作者一次性测了50+种backbone,从ResNet、ConvNeXt、EfficientNet到ViT、MaxViT、Swin Transformer,统一只用λ=0.05,batch=128,8个view,全部跑出SOTA水平。
调参?不存在的!作者甚至画了张神图:横坐标是SIGReg loss,纵坐标是预测loss,颜色是下游准确率,你会发现整个平面是平滑的“红-黄-蓝”渐变——loss越低,准确率越高!Spearman相关系数最高0.99,这意味着你不用跑下游任务,看训练loss就知道模型牛不牛!这简直是SSL界的“股价预测神器”!
LeJEPA的代码哲学,堪称AI界极简主义巅峰。整个训练流程就两个函数:一个SIGReg(上面已贴),一个LeJEPA主干(Algorithm 2),加起来不到50行:
python
def LeJEPA(global_views, all_views, lambd):
g_emb = forward(torch.cat(global_views))
a_emb = forward(torch.cat(all_views)) # ResNet可设a_emb=g_emb
centers = g_emb.view(-1, bs, K).mean(0)
a_emb = a_emb.view(-1, bs, K)
sim = (centers - a_emb).square().mean()
sigreg = mean(SIGReg(emb, global_step) for emb in a_emb)
return (1 - lambd) * sim + lambd * sigreg
没有teacher,没有EMA,没有momentum encoder,没有prototype clustering,没有register token,没有warmup,没有cosine scheduler……你能想到的玄学组件,它一个没有!
某大厂AI工程师看完哭晕在厕所:“我为DINOv2写了200行yaml配置,结果人家50行py直接干翻我!”实测数据更夸张:单卡Tesla V100,batch 512,训ImageNet-100一百个epoch,显存占用不到10G,比DINOv2省一半;训练速度还快20%,因为不用同步两个网络。这不仅是技术胜利,更是工程哲学的胜利:用最干净的代码,解决最复杂的问题。
这篇论文背后站着两位大神。第一作者Randall Balestriero,布朗大学助理教授,Meta FAIR访问学者,专攻自监督学习理论,近五年发NeurIPS/ICML二十多篇,是SSL理论派扛把子。
通讯作者杨立昆Yann LeCun,更不用多说——深度学习三巨头之一,卷积神经网络(CNN)发明人,LeNet之父,图灵奖得主,Meta CTO兼FAIR掌门人。但就在论文公开后不久,LeCun结束在Meta的十年征程。坊间传闻,LeJEPA就是他在Meta的“收官之作”。他用这篇论文告诉世界:真正的AI不是靠数据堆、模型堆,而是靠对问题本质的洞察。正如他在推特所言:“Maybe it’s time to go back to theory.”(也许是时候回归理论了)。而LeJEPA,就是他留给工业界和学术界最珍贵的礼物:一套可证明、可扩展、无玄学的SSL新范式。
当然,江湖总有杠精。有推特大V质疑:“你证明高斯最优,是因为假设了L2 loss + OLS probe,要是换成L1 + Lasso,最优分布难道不是Laplace?”
作者亲自下场回怼:
第一,Laplace分布无法同时最小化bias和variance;
第二,高斯是唯一旋转不变、各向同性的分布,天然适配各类下游任务;
第三,也是最关键的——JEPA是目前唯一敢把‘最优表征分布’写进定理的框架!
别的SSL方法连heuristic都还没理顺,你就来讨论分布形态?
数学系网友补刀更狠:“高斯测度是无穷维空间中唯一具有旋转不变性的概率测度,这就是数学宇宙的基本常数,Laplace根本不配!”
LeCun团队用这篇论文划清了界限:SSL的未来,属于数学,不属于调参。
LeJEPA的出现,标志着自监督学习正式从“经验主义时代”迈入“理论驱动时代”。它不仅是一个新算法,更是一种新范式:先问“什么是最优”,再问“怎么实现”。杨立昆用50行代码,告诉所有AI从业者:别再盲目堆数据、堆模型、堆技巧了。
回到数学,回到本质,你会发现,宇宙早已为你准备好答案——那就是,等方高斯。而LeJEPA,就是通往这个答案的最短路径。下次再有人跟你说“SSL调参靠玄学”,请把这篇公众号甩他脸上:五十行代码,一个λ,高斯在手,天下我有!