KOSMOS-12：一种多模态大型语言模型

#AI人工智能指南 #大语言模型LLM

2023-03-01 banq

KOSMOS-12是一种多模态大型语言模型，它可以感知一般模态、在上下文中学习（即few-shot）并遵循指令（即zero-shot）。

语言、多模式感知、动作和世界建模的大融合是通向通用人工智能的关键一步。

语言不是您所需要的全部：使感知与语言模型保持一致。

具体来说，我们在网络规模的多模式语料库上从头开始训练 Kosmos-1，包括任意交错的文本和图像、图像-说明对和文本数据。我们在没有任何梯度更新或微调的情况下，在广泛的任务上评估各种设置，包括零样本、少样本和多模态思维链提示。

实验结果表明，Kosmos-1 在

我们还表明，MLLM 可以受益于跨模态迁移，即将知识从语言迁移到多模态，以及从多模态迁移到语言。此外，我们还引入了一个 Raven IQ 测试数据集，用于诊断 MLLM 的非语言推理能力。

详细点击标题