杨立昆告别Meta封神之作：50行代码吊打DINOv2 宇宙真理竟是等方高斯！

杨立昆LeCun团队用数学证明等方高斯是自监督学习最优表征，提出LeJEPA框架：无Heuristic、线性复杂度、50行代码训出1.8B大模型，碾压DINOv2/3，终结SSL玄学时代。

就在我们还以为自监督学习（SSL）是大型炼丹现场、靠玄学调参拼人品的时候，Yann LeCun老爷子一记王炸直接掀了整张桌子！他联合布朗大学的Randall Balestriero，推出全新论文《LeJEPA：可证明、可扩展、无需启发式技巧的自监督学习》，彻底把JEPA（联合嵌入预测架构）从经验主义泥潭拉进了数学物理殿堂。

论文刚一公开，GitHub仓库就被疯狂fork，全球AI圈直接炸锅——因为这次，LeCun不是在调模型，他是在写定理！

他用整整30页证明告诉你：为什么你的JEPA训练总是塌陷、为什么你调三天loss还在蹦迪？因为你根本没搞懂“最优表征该长什么样”！而LeJEPA直接告诉你答案：等方高斯（isotropic Gaussian），才是宇宙唯一真理！

更炸裂的是，整个训练框架核心代码不到50行，PyTorch原生支持，DDP多卡同步全给你写好了，显存吃得比你早餐还少，但性能却能把DINOv2、DINOv3按在地上爆锤。

有Meta内部员工爆料：这极有可能是LeCun在FAIR（Meta基础人工智能研究实验室）的“谢幕之作”。
--

要理解LeJEPA为什么牛，得先懂JEPA有多难搞。

JEPA，全名Joint-Embedding Predictive Architecture，核心思想其实超简单：给你一张图，我随机遮一部分（比如打马赛克、crop、blur），模型看到完整图的embedding后，要去预测被遮住部分的embedding。

听起来是不是很像人脑？你看半张脸就能脑补全脸。但理想很丰满，现实直接塌成饼——模型发现最省力的方式，就是把所有图片都映射成同一个向量，这样预测误差永远是0！江湖人称“representation collapse”（表征塌陷）。

过去几年，大家怎么治？

Stop-gradient、teacher-student双网络、不对称增强、EMA动量更新、特征白化、负样本、超复杂调度器……像七龙珠一样集齐一堆heuristic，才勉强压住塌陷。

但问题是，这些技巧全是经验主义，换个数据集、换个模型，可能就翻车。

调参工程师天天加班，头发掉光，项目还上不了线。

而杨立昆LeCun老爷子拍案而起：够了！别再靠感觉了，咱们从第一性原理出发！他带领团队用严格的数学推导，先问：“如果我不提前知道下游任务是什么，我希望我的embedding分布长什么样？”答案让人震惊：无论下游是线性分类器、k近邻，还是核回归，等方高斯分布（isotropic Gaussian）都是唯一能最小化最坏情况（worst-case）预测风险的分布！

啥意思？就是它能在所有可能的下游任务里，都给你最稳、最均衡的表现。

这可不是嘴炮，论文里整整两节（Section 3.1 & 3.2）用引理+定理+证明层层递进，连偏导数都给你算明白。

网友调侃：这不就是“全宇宙最公平的插座”吗？不管你插头长啥样（下游任务），它都能稳稳接住，不打火、不松动。LeCun用行动告诉你：AI不是拼运气，是拼数学！

定理有了，怎么落地？

这才是LeJEPA最骚的地方。他们提出一个叫SIGReg（Sketched Isotropic Gaussian Regularization）的损失函数，直译就是“素描式等方高斯正则”。

听名字挺复杂，思路却简单到哭：高维空间不好搞？那我就随机抽一堆1D方向（比如1024个），把你的embedding往这些方向投影，变成一串1D向量。

然后我用一个叫Epps-Pulley的统计检验，看这些1D投影是不是符合标准正态分布。
如果不是，我就罚你！罚到你“从里到外”都变成高斯！

这招妙在哪？
第一，计算复杂度线性！投影+统计检验全是O(N)操作，batch size再大也不怕。
第二，梯度有界！论文里专门用Theorem 4证明了梯度不会爆炸，训练稳如老狗。
第三，分布式亲妈！代码里用all_reduce聚合特征函数，多卡同步零障碍。

最离谱的是，作者把SIGReg的PyTorch实现直接印在论文里（Algorithm 1），核心就30行：

python
def SIGReg(x, global_step, num_slices=256):
    dev = dict(device=x.device)
    g = torch.Generator(dev)
    g.manual_seed(global_step)
    proj_shape = (x.size(1), num_slices)
    A = torch.randn(proj_shape, generator=g, dev)
    A /= A.norm(p=2, dim=0)
    t = torch.linspace(-5, 5, 17, dev)
    exp_f = torch.exp(-0.5 * t 2)
    x_t = x.unsqueeze(2) * t
    ecf = (1j * x_t).exp().mean(0)
    ecf = all_reduce(ecf, op="AVG")
    err = (ecf - exp_f).abs().square().mul(exp_f)
    N = x.size(0) * world_size
    T = torch.trapz(err, t, dim=1) * N
    return T

你看，连种子同步、多卡通信、积分近似全给你写死了。复制粘贴，改个模型，就能跑！更骚的是，他们证明（Theorem 5）：只要你的网络输出够“光滑”（Sobolev正则性高），哪怕只抽16个方向，SGD每步都重采样，累积下来效果堪比抽几千个！实验证明：D=1024维的embedding，只用M=16个方向，SIGReg也能精准揪出塌陷的两个维度，把它掰回高斯分布。这操作，比你妈还懂你！

光说不练假把式，LeJEPA的实验直接把人看傻。

第一，ImageNet-1K上，ViT-H/14 backbone，线性probe直接干到79%，和DINOv2肩并肩，但训练简单到哭——不需要teacher、不需要stop-gradient、不需要调100个超参。

第二，小众数据集Galaxy10（天体图像分类，只有1.1万张图），LeJEPA直接原地起飞：ResNet-34预训练+线性probe，准确率83.28%，而DINOv2 ViT-S只能拿78.34%，DINOv3 ViT-S也才81.60%。这意味着：领域专属SSL，碾压通用大模型迁移！

第三，极端案例flowers102，只有1020张训练图，LeJEPA用ResNeXt-26ts预训练，准确率飙到82.19%，而/inet22k上预训练的I-JEPA ViT-H（630M参数）也才85.76%——但人家参数量是你80倍！

更离谱的是，作者一次性测了50+种backbone，从ResNet、ConvNeXt、EfficientNet到ViT、MaxViT、Swin Transformer，统一只用λ=0.05，batch=128，8个view，全部跑出SOTA水平。

调参？不存在的！作者甚至画了张神图：横坐标是SIGReg loss，纵坐标是预测loss，颜色是下游准确率，你会发现整个平面是平滑的“红-黄-蓝”渐变——loss越低，准确率越高！Spearman相关系数最高0.99，这意味着你不用跑下游任务，看训练loss就知道模型牛不牛！这简直是SSL界的“股价预测神器”！

LeJEPA的代码哲学，堪称AI界极简主义巅峰。整个训练流程就两个函数：一个SIGReg（上面已贴），一个LeJEPA主干（Algorithm 2），加起来不到50行：

python
def LeJEPA(global_views, all_views, lambd):
    g_emb = forward(torch.cat(global_views))
    a_emb = forward(torch.cat(all_views))  # ResNet可设a_emb=g_emb
    centers = g_emb.view(-1, bs, K).mean(0)
    a_emb = a_emb.view(-1, bs, K)
    sim = (centers - a_emb).square().mean()
    sigreg = mean(SIGReg(emb, global_step) for emb in a_emb)
    return (1 - lambd) * sim + lambd * sigreg

没有teacher，没有EMA，没有momentum encoder，没有prototype clustering，没有register token，没有warmup，没有cosine scheduler……你能想到的玄学组件，它一个没有！

某大厂AI工程师看完哭晕在厕所：“我为DINOv2写了200行yaml配置，结果人家50行py直接干翻我！”实测数据更夸张：单卡Tesla V100，batch 512，训ImageNet-100一百个epoch，显存占用不到10G，比DINOv2省一半；训练速度还快20%，因为不用同步两个网络。这不仅是技术胜利，更是工程哲学的胜利：用最干净的代码，解决最复杂的问题。

这篇论文背后站着两位大神。第一作者Randall Balestriero，布朗大学助理教授，Meta FAIR访问学者，专攻自监督学习理论，近五年发NeurIPS/ICML二十多篇，是SSL理论派扛把子。

通讯作者杨立昆Yann LeCun，更不用多说——深度学习三巨头之一，卷积神经网络（CNN）发明人，LeNet之父，图灵奖得主，Meta CTO兼FAIR掌门人。但就在论文公开后不久，LeCun结束在Meta的十年征程。坊间传闻，LeJEPA就是他在Meta的“收官之作”。他用这篇论文告诉世界：真正的AI不是靠数据堆、模型堆，而是靠对问题本质的洞察。正如他在推特所言：“Maybe it’s time to go back to theory.”（也许是时候回归理论了）。而LeJEPA，就是他留给工业界和学术界最珍贵的礼物：一套可证明、可扩展、无玄学的SSL新范式。

当然，江湖总有杠精。有推特大V质疑：“你证明高斯最优，是因为假设了L2 loss + OLS probe，要是换成L1 + Lasso，最优分布难道不是Laplace？”

作者亲自下场回怼：
第一，Laplace分布无法同时最小化bias和variance；

第二，高斯是唯一旋转不变、各向同性的分布，天然适配各类下游任务；

第三，也是最关键的——JEPA是目前唯一敢把‘最优表征分布’写进定理的框架！

别的SSL方法连heuristic都还没理顺，你就来讨论分布形态？

数学系网友补刀更狠：“高斯测度是无穷维空间中唯一具有旋转不变性的概率测度，这就是数学宇宙的基本常数，Laplace根本不配！”

LeCun团队用这篇论文划清了界限：SSL的未来，属于数学，不属于调参。

LeJEPA的出现，标志着自监督学习正式从“经验主义时代”迈入“理论驱动时代”。它不仅是一个新算法，更是一种新范式：先问“什么是最优”，再问“怎么实现”。杨立昆用50行代码，告诉所有AI从业者：别再盲目堆数据、堆模型、堆技巧了。

回到数学，回到本质，你会发现，宇宙早已为你准备好答案——那就是，等方高斯。而LeJEPA，就是通往这个答案的最短路径。下次再有人跟你说“SSL调参靠玄学”，请把这篇公众号甩他脸上：五十行代码，一个λ，高斯在手，天下我有！

杨立昆告别Meta封神之作：50行代码吊打DINOv2 宇宙真理竟是等方高斯！

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道