要点:
- 阿里巴巴 Qwen 研究团队发布了 QVQ-72B-Preview,这是一个开源语言模型,能够分析视觉信息并从图像和指令中得出复杂的结论。
- 该模型以循序渐进的方式处理信息:它读取图像和指令,分析内容,得出结论,并输出预测和置信度值。在基准测试中,该模型在数学和物理方面的表现优于同类模型。
- 尽管 Qwen 功能强大,但它也存在一些局限性,例如混合语言、陷入逻辑循环以及失去对图像的关注。该团队的目标是解决这些问题,并整合其他模式,以在未来创建一个“全能”模型。
该模型通过逐步思考来解决问题,类似于我们从其他所谓的推理模型(如OpenAI 的 o1或谷歌的 Flash Thinking)中了解到的。当用户输入图像和指令时,系统会分析信息,在必要时花时间进行思考,并为每个预测提供带有置信度分数的答案。
从本质上讲,QVQ-72B-Preview 是基于 Qwen 现有的视觉语言模型Qwen2-VL-72B构建的,并增加了思考和推理功能。Qwen 表示,这是同类中第一个开源模型。虽然它看起来与他们最近发布的QwQ 推理模型很相似,但该团队尚未解释这两个模型是否相关或如何相关。
为了测试该模型,Qwen 使用了四个不同的基准:MMMU 测试大学水平的视觉理解能力,MathVista 检查它通过数学图表推理的能力,MathVision 使用数学竞赛问题挑战它,OlympiadBench 用中文和英文测试奥林匹克级别的数学和物理问题。
在这些测试中,QVQ 的表现全面优于其前身 Qwen2-VL-72B-Instruct,达到了与 OpenAI 的 o1 和Claude 3.5 Sonnet等闭源模型相似的准确度水平。
QVQ 预览
Qwen 承认,该模型仍存在一些局限性。它可能会意外地在语言之间切换,或者陷入循环推理循环——这些问题甚至连 OpenAI 的 o1 都还没有解决。在执行复杂的视觉推理任务时,该模型有时会忘记自己正在看什么,这可能会导致幻觉。该团队还表示,在模型准备好广泛使用之前,需要更强大的保护措施。
Qwen 将 QVQ 描述为他们今年的“最后一份礼物”,并将其视为迈向更大目标的一步:在通往通用人工智能 (AGI) 的道路上创建他们所谓的“全知智能模型”。与 OpenAI 的 GPT-4o 一样,该团队计划构建一个统一的“全能”模型,以应对更复杂的科学挑战。
该团队解释说:“想象一下,人工智能可以研究复杂的物理问题,并像物理学大师一样自信地有条不紊地推理出解决方案。”
QVQ 的开源代码和模型权重可通过项目页面获取,并在 Hugging Face 上提供免费演示。