DeepSeek OCR实为一种用图像压缩文本上下文的大胆实验

DeepSeek 所谓“OCR”实为文本压缩实验,通过图像输入绕过长上下文限制,技术不新但思路前瞻,或为 V4 多模态架构探路。

DeepSeek OCR这篇论文根本不是在做传统 OCR!别被名字骗了。它真正的野心,是把整页文档变成一张图,然后让大模型直接“看图说话”,从而绕过超长文本输入的算力瓶颈。

换句话说,他们不是在识别文字,而是在“压缩信息”——用一张截图代替几千字的原始文本,实现高达 20 倍甚至更高的压缩比。

这听起来是不是有点“作弊”?但恰恰是这种思路,暴露了当前大模型上下文长度焦虑下的一个另类解法。

我们来看技术架构。整个系统分为两个编码器阶段:

第一阶段用“窗口注意力”(window attention)处理高分辨率图像,计算量小但局部感知强;接着进行下采样(downsample),把图像压缩成低维特征;

第二阶段再用“全注意力”(full attention)在这个压缩后的特征空间里做全局理解。

这种“先局部再全局、先高维再低维”的设计,其实和 Meta 之前提出的 MLA(Multi-Layer Aggregation)思路非常像——核心思想就是:昂贵的高维操作只在小窗口做,真正的大模型推理放在低维潜空间里跑,既省算力又保精度。

更值得注意的是,他们用的视觉基础模型居然是 SAM 1 和 CLIP 1!这两个模型早在 2022–2023 年就发布了,现在主流多模态研究早就升级到 SAM 2 或 CLIP-Huge 了。

这说明什么?说明这个项目很可能是在 DeepSeek V3 之前就启动的老项目,甚至可能是实习生练手的产物。

再加上论文里提到训练用的是 A100 显卡——要知道,DeepSeek 在 2024 年 8 月的 Fireflyer 论文中就已经转向 H100 和自研芯片了,A100 的出现几乎可以断定这是个“历史项目”,大概率不会再继续投入。

数据方面,他们用了 3000 万页复杂文档,包括合同、报表、教材、技术手册等,还混合了通用视觉数据(比如图像描述、目标检测、指代表达)。

标注方式也很有意思:一部分直接用 Fitz(现在叫 PyMuPDF)提取文本位置,另一部分则靠一堆模型先检测文字区域,再在边界框里做 OCR。对于图表,他们不用传统 OCR,而是转成 HTML 表格;对于几何图形,则采用某篇学术论文定义的专用格式。这种“混合标注”策略虽然工程复杂,但确实能提升模型对结构化内容的理解能力。

训练流程分两步:先单独训视觉编码器,再端到端联合训练整个 pipeline,用的是数据并行(DP)加流水线并行(PP)。没什么特别创新的地方,属于稳妥但保守的做法。

但真正让人眼前一亮的,是他们的应用场景演示。模型不仅能做传统 OCR,还能:
- 把整页 PDF 直接转成 Markdown;
- 把折线图、柱状图自动解析成结构化表格;
- 做图像描述(image captioning);
- 甚至能输出边界框(BBOX)定位关键元素。

这些能力说明,他们根本不是在解决“识别文字”这个老问题,而是在构建一个“文档智能理解引擎”——输入一张图,输出结构化、可编辑、可检索的语义内容。这才是真正的价值所在。

那么问题来了:为什么一个志在 AGI 的实验室要搞“OCR”?

答案藏在他们的动机里:他们发现,与其把整本书喂给大模型(动辄几十万 token),不如拍张照传进去,模型照样能读懂,而且上下文长度压力骤减。这本质上是一种“信息密度提升”策略——图像天然比纯文本更紧凑。比如一页 A4 纸的文字,可能有 2000 字,但一张 1024x1024 的图只要几 MB,模型通过视觉理解就能还原语义,相当于用空间换时间、用图像换 token。

当然,这招也有硬伤。就像你为了省打印纸把字体调到 5 号一样,图像分辨率一旦太低,文字就糊了,模型也认不出来。所以论文里吹的“无限上下文”其实是个伪命题——图像清晰度和信息量之间存在天然 trade-off。

而且从工程角度看,把全世界文本先渲染成图像再训练,成本未必比直接训一个更强的纯文本模型(比如 NSA v4)更低。后者可能更直接、更高效。

不过,别急着否定。虽然这个 OCR 项目本身可能已经“寿终正寝”,但它背后的技术架构极有可能被复用到 DeepSeek V4 的多模态版本中。尤其是那个“窗口+全注意力+下采样”的编码器设计,完美契合他们提出的“潜空间计算”(latent computation)理念——在低维空间里做高效推理,既省显存又提速。

所以,这个项目更像是一个技术试验田,为未来真正的多模态大模型铺路。

总结一下:DeepSeek 的“OCR”不是 OCR,而是一次关于“如何用图像压缩文本上下文”的大胆实验。虽然项目不是最新、技术保守,但思路极具启发性。它提醒我们,在大模型时代,输入形式本身也可以成为优化对象——不一定非得是 token,图像、音频、甚至视频,都可能是更高效的“信息载体”。