哥大2023年PIXEL模型:将文本渲染为图像实现语言建模

哥本哈根大学2023年提出PIXEL模型,将文本渲染为图像进行语言建模,无需词表即可跨语言迁移,对非拉丁文字和噪声文本表现卓越,为视觉化语言处理开辟新路径。

虽然“DeepSeek-OCR”是首次把文字当图像来处理的AI模型,这是落地为实物了,但是在文字符号层面,在理论界,把文字当图像来处理的想法早就有了。

早在2023年,哥本哈根大学的一群科学家就已经搞出了一个叫“PIXEL”(像素语言编码器)的模型,直接把文本渲染成图像,用视觉方式做语言建模!这篇论文叫《Language Modelling with Pixels》,发表在顶级会议ICLR 2023上,堪称“文字变图像”这条技术路线的开山鼻祖之一。

先说说这群牛人是谁。论文第一作者Phillip Rust来自丹麦哥本哈根大学,团队还包括来自鲁克伍德基金会研究部、约翰霍普金斯大学、鲁汶大学和丹麦先锋人工智能中心的学者。其中Elizabeth Salesky是苹果AI/ML奖学金获得者,Desmond Elliott更是多个欧盟和丹麦国家级AI项目的骨干。他们是真正想解决自然语言处理中的“词汇瓶颈”问题——也就是传统语言模型只能处理有限词表,遇到没见过的文字(比如非洲小语种、古文字、生僻汉字)就直接“UNK”(未知词)了,根本没法用。

那PIXEL是怎么干的呢?

简单说,它把整段文字当成一张图片来处理!比如你输入“你好,世界!”,它不会像BERT那样分词、查词表、转成向量,而是直接用字体引擎把这句话画成一张高16像素、宽8464像素的灰度图,再切成529个16×16的小图像块(patches)。

然后,它用类似ViT(Vision Transformer)的结构,像做图像修复一样,去预测那些被遮盖掉的图像块原本长什么样。

注意,它预测的不是“下一个词”,而是“下一个像素块”!整个过程完全不需要词表,理论上只要你的电脑能显示的文字,PIXEL都能处理——包括阿拉伯文、日文汉字、泰文、藏文,甚至彩色emoji!

这就带来一个超级牛的优势:跨语言零样本迁移。

论文里做了个震撼实验:用纯英文数据预训练PIXEL(99.95%都是英文!),然后直接拿去跑阿拉伯语、科普特语(古埃及基督教用的文字)、印地语、日语、韩语、泰米尔语、越南语、中文等9种语言的词性标注和依存句法分析任务。

结果呢?在拉丁字母语言(比如英语)上,PIXEL略逊于BERT;但在非拉丁文字上,它直接碾压!比如科普特语,BERT因为词表里根本没有这些字符,UNK率高达93.6%,准确率只有26.5%;而PIXEL却达到了96%!整整70个百分点的差距!这说明PIXEL真的靠“看字形”学会了语言结构,而不是靠死记硬背词表。

更绝的是,PIXEL对“错别字攻击”和“语码混用”特别鲁棒。

研究人员用Zeroé基准测试,故意把英文句子改成“Penguinz xre dwsigned ro ne streamllned”这种键盘误触+乱序+删元音的鬼样子,BERT的准确率直接崩到38%,而PIXEL还能稳稳保持在92%以上!为啥?因为它看的是整体字形相似性,不是一个个字符。比如“a”和“á”在BERT眼里是两个token,但在PIXEL眼里,它们渲染出来的像素几乎一样,所以模型根本不在乎你加不加音调符号。

当然,PIXEL也有短板。因为它预训练数据只有英文,所以在GLUE这种纯英文语义理解任务上,整体比BERT差一点。而且它的MAE(掩码自编码器)架构决定了它只能做理解,不能做生成——你没法让它“写”一段话,因为它输出的永远是像素,不是文字。

这正好引出了DeepSeek-OCR的不同:DeepSeek在图像编码器后面接的是文本解码器,所以既能“看”又能“写”,实用性更强。但别忘了,PIXEL是学术探索,是概念验证(PoC),它证明了“抛弃词表、纯靠视觉”这条路是走得通的!

其实,这种思路早有苗头。2022年,谷歌就做过类似尝试:把文本渲染成图像,喂给CLIP的视觉编码器,结果发现单塔结构(只用一个ViT)比CLIP的双塔(图文分别编码)效果还好!Salesky等人也在2021年提出过用卷积网络处理文本图像来做机器翻译。

但PIXEL是第一个把MAE+ViT这套完整视觉自监督框架搬到纯语言建模上的,而且做了系统性的多语言、鲁棒性、跨脚本评测,堪称里程碑。

不过,这条路也有硬伤。ViT的图像分块是固定大小的,但文字是序列化的——一个汉字占一个位置,一个英文单词可能占好几个位置。如果分块没对齐词边界,一个图像块里可能同时包含“苹”和“果”的一半,语义就乱了。

PIXEL团队其实意识到了这点,他们在做词性标注时,会强制在每个词前面加空格,确保每个词独占一个或多个完整图像块。但这在真实场景中很难做到,尤其是像中文、日文这种不靠空格分词的语言。未来可能需要动态分块、字符级对齐,甚至结合OCR的思路来优化。

总之,哥本哈根大学的PIXEL早在2023年就用“魔法阅读眼镜”的方式,证明了AI可以像人一样,通过“看字形”来理解语言。DeepSeek-OCR确实更快、更高效、更适合工业落地,但站在巨人肩膀上,才能看得更远。

学术界的探索总是嘴炮Show,工程上开源项目才预示技术爆发的前夜。