阿里千问Qwen-VL在几个基准AI上优于GPT-4V和Gemini


我们在Qwen语言模型的基础上,结合此前我们提出的多模态多任务训练,以解决多模态模型在泛化能力上的局限性,并于2023年9月开源了多模态模型Qwen-VL。最近,Qwen-VL系列有了重大升级,推出了两个增强版本:Qwen-VL-Plus和Qwen-VL-Max。这两个版本的关键提升包括:

  • 显著提升与图像相关的推理能力;
  • 在识别、提取和分析图像及其内含文本中的细节方面有明显增强;
  • 支持百万像素以上的高清晰度图像以及各种宽高比的图像。

相比于开源版本的Qwen-VL,这两个模型在多个文本-图像多模态任务中与Gemini Ultra和GPT-4V的表现相当,显著超越了之前开源模型的最佳结果。

值得一提的是,Qwen-VL-Max在中文问题回答和中文文本理解任务上超越了OpenAI的GPT-4V以及谷歌的Gemini:
https://huggingface.co/spaces/Qwen/Qwen-VL-Max