DeepSeek发布一款开源多模态人工智能模型Janus-Pro

banq


DeepSeek刚发布了一款开源多模态人工智能模型Janus-Pro。其中Janus-Pro-7B在GenEval和DPG-Bench基准测试中击败了OpenAI的DALL-E 3和Stable Diffusion

Janus-Pro 是一种全新的技术框架,它能够同时理解和生成多种类型的信息,比如文字和图片。这个框架通过把处理视觉信息的部分分开来,解决了以前方法的一些问题,但仍然使用同一个处理系统来完成所有工作。

这样做的好处是,不仅让视觉处理部分在理解和生成信息时不会互相干扰,还让整个框架更加灵活好用。

Janus-Pro 的表现比之前的统一模型更好,甚至能和专门为某个任务设计的模型一较高下。因为它简单、灵活又高效,所以被认为是未来统一处理多种信息类型的模型的理想选择。

Janus-Pro 是一个统一的理解和生成 MLLM,它将视觉编码解耦,以实现多模态理解和生成。

Janus-Pro 是基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建的。

  • 对于多模态理解,它使用SigLIP-L作为视觉编码器,支持 384 x 384 图像输入。
  • 对于图像生成,Janus-Pro 使用此处的标记器下采样率为 16。

尝试这个的最简单方法是使用Hugging Face Spaces 演示

尝试了以下提示来实现图像生成功能:

A photo of a raccoon holding a handwritten sign that says "I love trash"

Janus-Pro 现在也被移植到Transformers.js,这意味着您可以在 WebGPU 浏览器(例如 Chrome,网址为 webml-community/janus-pro-webgpu)中直接运行 1B 模型(加载约 2.24 GB 的模型文件)。

Qwen 系列视觉 LLM 中的最新产品
发布了多个版本:基本模型和 3B、7B 和 72B 的指令调整模型。[url=https://github.com/QwenLM/Qwen2.5-VL/blob/main/README.md]他们的 README 中[/url]有很多附加信息。

72B 型号可以在 Qwen 的Qwen Chat界面上选择。

VB 指出,Qwen 2.5 VL 7B 的视觉基准测试表明其表现优于 GPT-4o mini!

千问Qwen2.5 VL 系列产品
Qwen 也刚刚出版了一套cookbooks

  • universal_recognition.ipynb演示了基本的视觉问答,包括“Who are these in this picture? Please give their names in Chinese and English”针对名人照片的提示,这是其他模型故意抑制的能力。
  • spatial_understanding.ipynb演示了边界框支持,并带有如下提示:Locate the top right brown cake, output its bbox coordinates using JSON format。
  • video_understanding.ipynb将视频分解成单独的帧,并提出以下问题:Could you go into detail about the content of this long video?
  • ocr.ipynb显示Qwen2.5-VL-7B-Instruct以多种不同语言执行 OCR。
  • document_parsing.ipynb使用 Qwen 将文档图像转换为 HTML 和其他格式,并指出“我们引入了一种独特的 Qwenvl HTML 格式,其中包含每个组件的位置信息,从而实现精确的文档重建和操作。”
  • mobile_agent.ipynb运行 Qwen 并使用工具来控制手机,类似于 ChatGPT Operator 或 Claude Computer Use。
  • computer_use.ipynb展示了“GUI 基础”——输入用户桌面的屏幕截图并运行工具,例如左键单击特定坐标。