DeepSeek发布一款开源多模态人工智能模型Janus-Pro

DeepSeek刚发布了一款开源多模态人工智能模型Janus-Pro。其中Janus-Pro-7B在GenEval和DPG-Bench基准测试中击败了OpenAI的DALL-E 3和Stable Diffusion。

Janus-Pro 是一种全新的技术框架，它能够同时理解和生成多种类型的信息，比如文字和图片。这个框架通过把处理视觉信息的部分分开来，解决了以前方法的一些问题，但仍然使用同一个处理系统来完成所有工作。

这样做的好处是，不仅让视觉处理部分在理解和生成信息时不会互相干扰，还让整个框架更加灵活好用。

Janus-Pro 的表现比之前的统一模型更好，甚至能和专门为某个任务设计的模型一较高下。因为它简单、灵活又高效，所以被认为是未来统一处理多种信息类型的模型的理想选择。

Janus-Pro 是一个统一的理解和生成 MLLM，它将视觉编码解耦，以实现多模态理解和生成。

Janus-Pro 是基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建的。

尝试这个的最简单方法是使用Hugging Face Spaces 演示。

尝试了以下提示来实现图像生成功能：

A photo of a raccoon holding a handwritten sign that says "I love trash"

Janus-Pro 现在也被移植到Transformers.js，这意味着您可以在 WebGPU 浏览器（例如 Chrome，网址为 webml-community/janus-pro-webgpu）中直接运行 1B 模型（加载约 2.24 GB 的模型文件）。

Qwen 系列视觉 LLM 中的最新产品
发布了多个版本：基本模型和 3B、7B 和 72B 的指令调整模型。[url=https://github.com/QwenLM/Qwen2.5-VL/blob/main/README.md]他们的 README 中[/url]有很多附加信息。

72B 型号可以在 Qwen 的Qwen Chat界面上选择。

VB 指出，Qwen 2.5 VL 7B 的视觉基准测试表明其表现优于 GPT-4o mini！

千问Qwen2.5 VL 系列产品
Qwen 也刚刚出版了一套cookbooks：

universal_recognition.ipynb演示了基本的视觉问答，包括“Who are these in this picture? Please give their names in Chinese and English”针对名人照片的提示，这是其他模型故意抑制的能力。
spatial_understanding.ipynb演示了边界框支持，并带有如下提示：Locate the top right brown cake, output its bbox coordinates using JSON format。
video_understanding.ipynb将视频分解成单独的帧，并提出以下问题：Could you go into detail about the content of this long video?
ocr.ipynb显示Qwen2.5-VL-7B-Instruct以多种不同语言执行 OCR。
document_parsing.ipynb使用 Qwen 将文档图像转换为 HTML 和其他格式，并指出“我们引入了一种独特的 Qwenvl HTML 格式，其中包含每个组件的位置信息，从而实现精确的文档重建和操作。”
mobile_agent.ipynb运行 Qwen 并使用工具来控制手机，类似于 ChatGPT Operator 或 Claude Computer Use。
computer_use.ipynb展示了“GUI 基础”——输入用户桌面的屏幕截图并运行工具，例如左键单击特定坐标。