阿里千问Qwen-VL在几个基准AI上优于GPT-4V和Gemini

我们在Qwen语言模型的基础上，结合此前我们提出的多模态多任务训练，以解决多模态模型在泛化能力上的局限性，并于2023年9月开源了多模态模型Qwen-VL。最近，Qwen-VL系列有了重大升级，推出了两个增强版本：Qwen-VL-Plus和Qwen-VL-Max。这两个版本的关键提升包括：

显著提升与图像相关的推理能力；
在识别、提取和分析图像及其内含文本中的细节方面有明显增强；
支持百万像素以上的高清晰度图像以及各种宽高比的图像。

相比于开源版本的Qwen-VL，这两个模型在多个文本-图像多模态任务中与Gemini Ultra和GPT-4V的表现相当，显著超越了之前开源模型的最佳结果。

值得一提的是，Qwen-VL-Max在中文问题回答和中文文本理解任务上超越了OpenAI的GPT-4V以及谷歌的Gemini：
https://huggingface.co/spaces/Qwen/Qwen-VL-Max

WhisperFusion：实时语音转文本的大模型工具

WhisperFusion 基于WhisperLive和 WhisperSpeech的功能而构建，将.
谷歌发布新的Bard Gemini模型：相当于GPT-4

Google 的 Bard 聊天机器人由新的 Gemini 模型提供支持。早期用户评价它与 GPT-.

谷歌AI在数学奥林匹克竞赛中获得银牌

谷歌刚刚推出了一位精英人工智能数学家，它是一个神经符号系统，能将问题形式化为 Lean（一种形式语言.
历史上第一次：聪明AI能愚弄人类

Aidan McLau 在社交媒体上发表了一条评论："gpt-4o mini"在"arena"上投票.
Llama 3.1发布：开源AI是未来吗？

Meta发布三款机型：新款 3.1-405B 以及较小型号的升级版：3.1-70B 和 3.1-8B.
最难逻辑考题：来自IOL国际语言学奥林匹克

IMO是最难的高中数学考试，而IOL是国际语言学奥林匹克：明天开始！学生被要求纯粹使用逻辑来翻译不太.
AI状元榜被黑：huggingface排名第一大模型被质疑

昨日，Reddit网友发现一个奇怪事情：这是什么模型？为什么它突然在 huggingface 上占据.