DeepSeek-OCR抛弃文字：未来大模型范式只吃图不吃字

DeepSeek-OCR 通过光学上下文压缩实现高效 OCR，并引发对大模型LLM 输入范式的革命性思考——或许所有输入都应是图像而非文本。

DeepSeek 推出了一款全新的 OCR 模型——DeepSeek-OCR，这可不是普通的文字识别工具，而是一场对大语言模型（LLM）输入方式的彻底革命！它跑在 vLLM 上，速度飞快，A100-40G 显卡上每秒能处理约 2500 个 token，性能直接拉满。

这项技术到底有多牛？简单来说，传统OCR识别一张高清图片可能需要几千个视觉token，而DeepSeek OCR只需要64到400个，极端情况下甚至压缩10倍，信息保留率却高达97%！这意味着什么？意味着同样的GPU资源，AI能处理的文档长度翻了好几倍，再也不用担心“上下文爆内存”了。

这次他们发布的OCR系统，核心由两大部分组成：
一个是DeepEncoder，专门负责图像分析；
另一个是基于DeepSeek-3B-MoE架构的文本生成器，激活参数高达5.7亿。

更厉害的是，DeepEncoder融合了Meta的SAM（分割一切模型）和OpenAI的CLIP两大明星模型，先用SAM对图像做精细分割，再通过一个16倍压缩器把4096个图像token狂压到256个，最后交给CLIP理解全局语义——整个流程既省资源又保精度。

实际应用场景更是让人眼前一亮。比如财务报告里的复杂图表，DeepSeek OCR不仅能识别文字，还能自动把柱状图、折线图转换成结构化的Markdown表格，甚至还原成矢量图形！学生党做题也不用愁了，连中文几何题里的图形和公式都能精准提取，直接生成可编辑文本。系统支持100多种语言，从普通文章到化学方程式、几何证明题，统统不在话下。

在权威测试平台OmniDocBench上，DeepSeek OCR的表现吊打一众对手。用100个视觉token就能干翻需要256个token的GOT-OCR 2.0；处理复杂页面时，它只用不到800个token，就轻松击败吃掉6000+token的MinerU 2.0。小红书自家的dots.ocr也在这场对决中败下阵来。

更夸张的是它的生产力。单张NVIDIA A100显卡每天能处理20万页文档；如果部署20台服务器，每台配8张A100，日处理量直接飙到3300万页！团队在训练时用了3000万份PDF页面，涵盖中英等百种语言，还额外合成了1000万张图表、500万化学式和100万几何图，数据量拉满，泛化能力超强。

有意思的是，研究团队还提出一个脑洞大开的应用：用DeepSeek OCR压缩聊天记录！就像人类记忆会随时间模糊一样，把早期对话用低分辨率“存档”，既节省显存，又能让AI记住超长对话历史。这思路，简直把AI当人养了！

极客辣评

DeepSeek-OCR更关键的意义是它背后的理念，可能会彻底改变我们对“语言模型到底该吃文字还是吃图片”的认知。

这次吹爆 DeepSeek-OCR 的，正是大名鼎鼎的 Andrej Karpathy！如果你还不知道他是谁，那真的要补补课了。Karpathy 是斯坦福大学的 AI 博士，曾是特斯拉的 AI 负责人，一手打造了特斯拉的自动驾驶视觉系统，后来加入 OpenAI，是 GPT 系列早期的核心成员之一。他不仅是技术大神，还是 YouTube 上超受欢迎的 AI 教育博主，讲解深入浅出，圈粉无数。如今他虽自称“暂时伪装成自然语言处理的人”，但骨子里还是个计算机视觉专家，所以他对图像输入的执念，其实非常有道理。

那么，DeepSeek-OCR 到底牛在哪里？

首先，它提出了一个叫“光学上下文压缩”（Optical Context Compression）的新思路。简单来说，就是把一张包含文字的图片，用更少的视觉 token（可以理解为图像的基本单元）来表示，但识别准确率几乎不掉！论文里说，压缩率最高能达到 20 倍，而 OCR 准确率还能保持在 97% 以上，而且是在视觉 token 减少到原来的十分之一以下的情况下做到的。这意味着什么？意味着模型处理速度更快、显存占用更低、推理成本大幅下降。

更厉害的是，在 OmniDocBench 这个多模态文档理解的权威评测基准上，DeepSeek-OCR 的表现直接碾压了 GOT-OCR2.0 和 MinerU2.0 这两个当前最强的开源 OCR 模型，而且用的视觉 token 还更少。这说明它不仅快，还更聪明、更高效。

但 Karpathy 真正兴奋的点，其实不在 OCR 本身，而在于它背后那个更大胆的设想：也许，大语言模型根本就不该吃“文字”，而应该只吃“图片”！

你没听错。我们现在的 LLM，比如你正在用的这个，输入的都是经过 tokenizer（分词器）处理后的文字 token。但 tokenizer 问题一大堆：它依赖 Unicode 和字节编码，历史包袱沉重；两个看起来一模一样的字符（比如全角和半角），在模型眼里可能是完全不同的 token；一个笑脸 emoji，在模型内部根本不是一张笑脸，而是一串莫名其妙的数字。更别说 tokenizer 还可能带来安全风险，比如通过特殊字节组合绕过内容过滤。

Karpathy 直接开喷：“tokenizer 必须滚蛋！” 他认为，如果所有输入都变成图像，这些问题就迎刃而解了。哪怕你输入的是一段纯文字，也可以先把它“渲染”成一张图片——就像你在 Word 里看到的样子，有字体、有颜色、有加粗、有排版，甚至还能嵌入图表。这样，信息不仅更丰富，而且天然支持双向注意力机制（不像现在自回归生成只能从左到右看），模型理解上下文的能力会更强。

而且，图像本身就是一种高度压缩的信息载体。DeepSeek-OCR 的实验证明，一张包含大量文字的图片，用极少的视觉 token 就能表达清楚，远比把每个字都拆成 token 来得高效。这意味着，未来的 LLM 上下文窗口可以更短，推理速度更快，成本更低。

更重要的是，这种“图像输入 + 文本输出”的模式，天然支持多模态。你扔给模型一张发票、一张手写笔记、一张带表格的 PDF，它都能像人一样“看懂”，然后用文字回答你问题。OCR 只是其中一种应用，未来还可以做图表理解、公式识别、甚至视觉推理。

当然，Karpathy 也承认，输出端还是个难题。让模型直接生成高质量图像，目前还不现实，也不一定有必要。所以现阶段，最合理的架构就是：用户输入全是图像，模型内部用视觉编码器处理，最后输出依然是文字。这既保留了 LLM 强大的语言生成能力，又获得了视觉输入的全部优势。

更让人激动的是，vLLM 团队已经和 DeepSeek 展开合作，将在下一个版本中正式支持 DeepSeek-OCR。vLLM 是目前最火的 LLM 推理加速框架，以高吞吐、低延迟著称。有了官方支持，开发者们很快就能在自己的应用里轻松集成这种“图像输入”的多模态能力，真正实现高效、低成本、高精度的文档智能处理。

想象一下未来的应用场景：你拍一张会议白板的照片，AI 不仅能识别所有文字，还能理解其中的逻辑结构，自动生成会议纪要；你上传一份银行对账单，AI 立刻提取关键数据，生成财务分析报告；你扫描一本古籍，AI 不仅能 OCR，还能自动校对、翻译、注释。这一切，都建立在“图像即输入”的新范式之上。

所以，DeepSeek-OCR 的意义，远不止是一个更好的 OCR 工具。它是在挑战整个 LLM 的输入范式，试图用计算机视觉的视角，重新定义语言模型的起点。这或许就是多模态 AI 下一个爆发点——不是让语言模型学会看图，而是让所有信息，都以图像的形式被“阅读”。

而 Karpathy 最后那句“我现在得克制住自己，别去搞一个纯图像输入版的 nanochat”，简直暴露了他内心的躁动。这位技术大神一旦动手，说不定真能掀起一场 AI 输入方式的革命。

总结一下，DeepSeek-OCR 不仅性能强悍，更提出了一种颠覆性的理念：抛弃文本 token，拥抱图像输入。这可能是通往更通用、更高效、更安全 AI 的关键一步。

DeepSeek-OCR抛弃文字：未来大模型范式只吃图不吃字

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道