DINOv 3能完全从未标记的图像中学习,没有标题,没有注释,并且在分割,深度估计和3D匹配等密集任务上仍然优于CLIP、SAM甚至之前的DINOv 2等模型。他们训练了一个7 B参数的ViT,并使用一种名为Gram训练的新技术解决了长时间训练中特征退化的常见问题。
源代码在GitHub上。 这是一个新的许可证,但似乎基本上是免费的一些CYA(例如,不违反ITAR,不起诉Meta侵权),属于source-available,不是真正开源Open Source,Meta可以随时单方面更改许可证条款。
自监督学习,本来就是 AI 圈子里的“穷人乐”,因为最大好处就是——不用打标签。模型只要自己跟自己玩,就能从几十亿张猫猫狗狗、显微镜切片、甚至天文望远镜的照片里悟出规律。人类学生还得补课,AI 却能“闭门造车”,是不是觉得教育部都要破防?
DINOv3 带着“自学成才”的光环登场了。它不光能看懂自然风景,还能读懂卫星遥感、医学影像,甚至高能物理实验的奇怪图案。科研人员一脸懵:我们研究了几十年,结果你小子一学就会?
论文第一作者Touvron和他的小伙伴们,从2020年的“训练数据高效的图像Transformer”开始,一路“复仇”到2022年的“DeiT III:VIT的复仇”。
痛点解决:学得多反而傻?
前辈 DINOv2 有个尴尬毛病:越训练越糊。就像学生复习到后半夜,突然开始在试卷上写“我有一个梦想,就是吃饭睡觉打豆豆”。
DINOv3 的解决方案叫 Gram Anchoring(格拉姆锚定),直译很高大上,其实就是“戴紧箍咒”。
想象一下课堂场景:patch 特征们原本乖乖听讲,后来开始东张西望,跟 CLS token 一起开小差。Gram Anchoring 就是那个冷酷的班主任:把每个 patch 按在椅子上,你们给我保持一致,谁都别想乱跑。于是,DINOv3 的特征图即使在 4K 分辨率下依然稳如老狗,科研圈瞬间一片掌声。
“Gram Anchoring”(格拉姆锚定)听起来像是某种神秘的东方仪式;“DINO”(小恐龙)和“iBOT”(机器人)听着像是儿童动画片;“Koleo正则化”听着像是某种南美舞蹈。但这些花里胡哨的名字背后,是极其复杂的数学推导和海量的GPU算力。他们用最诗意的名字,包裹着最冰冷的代码;用最童真的幻想,驱动着最庞大的计算集群。这就像一个顶级厨师,给一道用液氮和分子料理做的菜起名叫“童年的棉花糖”,听起来很甜,吃起来能把舌头冻掉。
论文作者Wang、Jabri和Efros这几位大神,研究“从时间的循环一致性中学习对应关系”。翻译成人话就是:让AI看一段视频,比如一个人从A点走到B点,然后倒放,AI得能认出这是同一个人,同一个动作。
这听着简单,做起来可太难了。AI得理解时间是流动的,动作是连贯的,不能像我们人类打瞌睡时那样,看个视频愣是把“起床”看成了“躺下”。他们用“循环一致性”来约束AI,就像给AI套了个时间紧箍咒,让它别胡思乱想,老老实实跟着时间轴走。
然后他们搞了个“Tokencut”,用自监督Transformer和归一化切割来分割图像和视频中的物体。这名字起得,跟“剪刀手爱德华”似的。他们让AI自己给自己出题,自己解题,还不给答案,全靠“顿悟”。比如,把一张猫狗打架的图片扔给AI,AI得自己琢磨出哪里是猫,哪里是狗,还得把它们从背景里“剪”出来。
这难度,堪比让一个色盲去调配油画颜料。但他们偏偏就做到了,还发在了IEEE TPAMI上,那可是计算机视觉界的“圣殿”。
参数爆炸:7B 巨人,但还能压缩成小可爱
DINOv3 最狂的地方是参数直接飙到 70 亿。这就像一个学霸突然长到 2 米 2,走哪儿都带着压迫感。问题是,显卡一看就说:哥们,跑你得破产啊。
于是,Meta AI 搞了个“蒸馏大法”:大模型教小模型,结果造出了一整个 DINOv3 家族。从 ViT-S 到 ViT-L,甚至 ConvNeXt 变体应有尽有。科研团队表示:这就像影印学霸笔记,从 500 页精装缩成 50 页小册子,随身带着也能考高分。大厂真会玩,连节能环保都替我们想好了。
实力碾压:连 CLIP 也得挠头
在各种测试集上,DINOv3 的表现就是——轻松碾压同行。
在语义分割任务 ADE20k 上,它直接刷出 55.9 mIoU,差一点就赶上全世界 SOTA 水平。更骚的是,它训练时根本没用图文对齐,结果分得比 CLIP 这种靠几亿图文对喂出来的模型还准。
换句话说:别人靠死磕大数据当明星,DINOv3 靠自学就能抢饭碗。这要是搁娱乐圈,估计直接被黑到退网。
总结:别人家孩子,还会带队友飞
最终结论很简单:DINOv3 就是 AI 届的“别人家孩子”。
* 它能自学成才,不用人类打工标数据;
* 它能解决越学越糊的“中年危机”;
* 它能长到 70 亿参数,还能压缩成小号分身;
* 它能在各大任务上吊打同行,还顺手玩点多模态跨界;
一句话总结:\*\*DINOv3 不仅自己考第一,还会帮老师改卷子,顺便把笔记复印给全班。\*\*科研圈的其他模型只能默默叹气:哎,怪不得顶刊老是它。
论文作者Oquab、Beyer、Zhai、Kolesnikov……这阵容,简直就是Vision Transformer(ViT)家族的“全家福”。他们从2020年Dosovitskiy那篇开山之作《一张图片值16x16个词》开始,就像打开了潘多拉魔盒,从此一发不可收拾。他们搞“大规模无监督学习”,搞“图像-文本对比学习”,搞“统一的多语言图文模型”(PaLI),搞得风生水起。这哪里是做研究,这分明是在“造神”——造一个能看懂图片、能理解文字、能思考万物的超级AI之神。而他们自己,则成了这个神坛边上的“大祭司”,用代码和数学公式进行着庄严的“祭祀”。