书生Intern-S1：中国先进的开源多模态科学推理模型

来自中国的新开源 Sota 模型 @ 235B MoE 语言模型和 6B Vision 编码器 - 在 5T 标记（50% 以上的科学数据）上进行预训练：

我们推出了 Intern-S1，这是我们推出的最先进的开源多模态推理模型。Intern-S1 在具备强大通用任务能力的同时，在广泛的科学任务中也达到了最先进的性能，可与最先进的闭源商业模型相媲美。

Intern-S1 基于一个 235B 的 MoE 语言模型 (Qwen3) 和一个 6B 的视觉编码器 (InternViT) 构建，并在 5T token 的多模态数据上进行了续训，其中包含超过 2.5T 的科学领域 token。这一训练策略使得该模型不仅保留了强大的通用能力，还在专业科学任务上表现出色，例如解析化学结构、理解蛋白质序列、规划化合物合成路径，使 Intern-S1 成为了能够应对真实科研任务的 AI 助手。

特性

在语言与视觉推理基准测试中表现强劲，尤其擅长科学任务。
在包含超过 50% 科学专业数据的 5T 规模数据集上持续预训练，深度融合专业领域知识。
动态分词器原生支持对分子式、蛋白质序列、地震信号等数据的理解。

极客辣评

Intern-VL OCR是Gemini 2.5 Flash之前最好的OCR之一。坚实的科学基准！

终于有一个模型能理解我混乱的科学笔记了！