DeepSeek OCR实为一种用图像压缩文本上下文的大胆实验

DeepSeek 所谓“OCR”实为文本压缩实验，通过图像输入绕过长上下文限制，技术不新但思路前瞻，或为 V4 多模态架构探路。

DeepSeek OCR这篇论文根本不是在做传统 OCR！别被名字骗了。它真正的野心，是把整页文档变成一张图，然后让大模型直接“看图说话”，从而绕过超长文本输入的算力瓶颈。

换句话说，他们不是在识别文字，而是在“压缩信息”——用一张截图代替几千字的原始文本，实现高达 20 倍甚至更高的压缩比。

这听起来是不是有点“作弊”？但恰恰是这种思路，暴露了当前大模型上下文长度焦虑下的一个另类解法。

我们来看技术架构。整个系统分为两个编码器阶段：

第一阶段用“窗口注意力”（window attention）处理高分辨率图像，计算量小但局部感知强；接着进行下采样（downsample），把图像压缩成低维特征；

第二阶段再用“全注意力”（full attention）在这个压缩后的特征空间里做全局理解。

这种“先局部再全局、先高维再低维”的设计，其实和 Meta 之前提出的 MLA（Multi-Layer Aggregation）思路非常像——核心思想就是：昂贵的高维操作只在小窗口做，真正的大模型推理放在低维潜空间里跑，既省算力又保精度。

更值得注意的是，他们用的视觉基础模型居然是 SAM 1 和 CLIP 1！这两个模型早在 2022–2023 年就发布了，现在主流多模态研究早就升级到 SAM 2 或 CLIP-Huge 了。

这说明什么？说明这个项目很可能是在 DeepSeek V3 之前就启动的老项目，甚至可能是实习生练手的产物。

再加上论文里提到训练用的是 A100 显卡——要知道，DeepSeek 在 2024 年 8 月的 Fireflyer 论文中就已经转向 H100 和自研芯片了，A100 的出现几乎可以断定这是个“历史项目”，大概率不会再继续投入。

数据方面，他们用了 3000 万页复杂文档，包括合同、报表、教材、技术手册等，还混合了通用视觉数据（比如图像描述、目标检测、指代表达）。

标注方式也很有意思：一部分直接用 Fitz（现在叫 PyMuPDF）提取文本位置，另一部分则靠一堆模型先检测文字区域，再在边界框里做 OCR。对于图表，他们不用传统 OCR，而是转成 HTML 表格；对于几何图形，则采用某篇学术论文定义的专用格式。这种“混合标注”策略虽然工程复杂，但确实能提升模型对结构化内容的理解能力。

训练流程分两步：先单独训视觉编码器，再端到端联合训练整个 pipeline，用的是数据并行（DP）加流水线并行（PP）。没什么特别创新的地方，属于稳妥但保守的做法。

但真正让人眼前一亮的，是他们的应用场景演示。模型不仅能做传统 OCR，还能：
- 把整页 PDF 直接转成 Markdown；
- 把折线图、柱状图自动解析成结构化表格；
- 做图像描述（image captioning）；
- 甚至能输出边界框（BBOX）定位关键元素。

这些能力说明，他们根本不是在解决“识别文字”这个老问题，而是在构建一个“文档智能理解引擎”——输入一张图，输出结构化、可编辑、可检索的语义内容。这才是真正的价值所在。

那么问题来了：为什么一个志在 AGI 的实验室要搞“OCR”？

答案藏在他们的动机里：他们发现，与其把整本书喂给大模型（动辄几十万 token），不如拍张照传进去，模型照样能读懂，而且上下文长度压力骤减。这本质上是一种“信息密度提升”策略——图像天然比纯文本更紧凑。比如一页 A4 纸的文字，可能有 2000 字，但一张 1024x1024 的图只要几 MB，模型通过视觉理解就能还原语义，相当于用空间换时间、用图像换 token。

当然，这招也有硬伤。就像你为了省打印纸把字体调到 5 号一样，图像分辨率一旦太低，文字就糊了，模型也认不出来。所以论文里吹的“无限上下文”其实是个伪命题——图像清晰度和信息量之间存在天然 trade-off。

而且从工程角度看，把全世界文本先渲染成图像再训练，成本未必比直接训一个更强的纯文本模型（比如 NSA v4）更低。后者可能更直接、更高效。

不过，别急着否定。虽然这个 OCR 项目本身可能已经“寿终正寝”，但它背后的技术架构极有可能被复用到 DeepSeek V4 的多模态版本中。尤其是那个“窗口+全注意力+下采样”的编码器设计，完美契合他们提出的“潜空间计算”（latent computation）理念——在低维空间里做高效推理，既省显存又提速。

所以，这个项目更像是一个技术试验田，为未来真正的多模态大模型铺路。

总结一下：DeepSeek 的“OCR”不是 OCR，而是一次关于“如何用图像压缩文本上下文”的大胆实验。虽然项目不是最新、技术保守，但思路极具启发性。它提醒我们，在大模型时代，输入形式本身也可以成为优化对象——不一定非得是 token，图像、音频、甚至视频，都可能是更高效的“信息载体”。

DeepSeek OCR实为一种用图像压缩文本上下文的大胆实验

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道