KOSMOS-12是一种多模态大型语言模型,它可以感知一般模态、在上下文中学习(即few-shot)并遵循指令(即zero-shot)。
语言、多模式感知、动作和世界建模的大融合是通向通用人工智能的关键一步。
语言不是您所需要的全部:使感知与语言模型保持一致。
具体来说,我们在网络规模的多模式语料库上从头开始训练 Kosmos-1,包括任意交错的文本和图像、图像-说明对和文本数据。我们在没有任何梯度更新或微调的情况下,在广泛的任务上评估各种设置,包括零样本、少样本和多模态思维链提示。
实验结果表明,Kosmos-1 在
* 语言理解、生成甚至无 OCR NLP(直接输入文档图像)方面取得了令人印象深刻的性能,
* 感知语言任务,包括多模式对话、图像字幕、视觉问答,以及
* 视觉任务,例如带描述的图像识别(通过文本指令指定分类)。
详细点击标题