KOSMOS-12是一种多模态大型语言模型,它可以感知一般模态、在上下文中学习(即few-shot)并遵循指令(即zero-shot)。
语言、多模式感知、动作和世界建模的大融合是通向通用人工智能的关键一步。
语言不是您所需要的全部:使感知与语言模型保持一致。
具体来说,我们在网络规模的多模式语料库上从头开始训练 Kosmos-1,包括任意交错的文本和图像、图像-说明对和文本数据。我们在没有任何梯度更新或微调的情况下,在广泛的任务上评估各种设置,包括零样本、少样本和多模态思维链提示。
实验结果表明,Kosmos-1 在
- (i) 语言理解、生成甚至无 OCR NLP(直接输入文档图像)方面取得了令人印象深刻的性能,
- (ii) 感知语言任务,包括多模式对话、图像字幕、视觉问答,以及
- (iii) 视觉任务,例如带描述的图像识别(通过文本指令指定分类)。
我们还表明,MLLM 可以受益于跨模态迁移,即将知识从语言迁移到多模态,以及从多模态迁移到语言。此外,我们还引入了一个 Raven IQ 测试数据集,用于诊断 MLLM 的非语言推理能力。
详细点击标题