来自中国的新开源 Sota 模型 @ 235B MoE 语言模型和 6B Vision 编码器 - 在 5T 标记(50% 以上的科学数据)上进行预训练:
我们推出了 Intern-S1,这是我们推出的最先进的开源多模态推理模型。Intern-S1 在具备强大通用任务能力的同时,在广泛的科学任务中也达到了最先进的性能,可与最先进的闭源商业模型相媲美。
Intern-S1 基于一个 235B 的 MoE 语言模型 (Qwen3) 和一个 6B 的视觉编码器 (InternViT) 构建,并在 5T token 的多模态数据上进行了续训,其中包含超过 2.5T 的科学领域 token。这一训练策略使得该模型不仅保留了强大的通用能力,还在专业科学任务上表现出色,例如解析化学结构、理解蛋白质序列、规划化合物合成路径,使 Intern-S1 成为了能够应对真实科研任务的 AI 助手。
特性
- 在语言与视觉推理基准测试中表现强劲,尤其擅长科学任务。
- 在包含超过 50% 科学专业数据的 5T 规模数据集上持续预训练,深度融合专业领域知识。
- 动态分词器原生支持对分子式、蛋白质序列、地震信号等数据的理解。
极客辣评
Intern-VL OCR是Gemini 2.5 Flash之前最好的OCR之一。坚实的科学基准!
终于有一个模型能理解我混乱的科学笔记了!