DeepSeek刚发布了一款开源多模态人工智能模型Janus-Pro。其中Janus-Pro-7B在GenEval和DPG-Bench基准测试中击败了OpenAI的DALL-E 3和Stable Diffusion。
Janus-Pro 是一种全新的技术框架,它能够同时理解和生成多种类型的信息,比如文字和图片。这个框架通过把处理视觉信息的部分分开来,解决了以前方法的一些问题,但仍然使用同一个处理系统来完成所有工作。
这样做的好处是,不仅让视觉处理部分在理解和生成信息时不会互相干扰,还让整个框架更加灵活好用。
Janus-Pro 的表现比之前的统一模型更好,甚至能和专门为某个任务设计的模型一较高下。因为它简单、灵活又高效,所以被认为是未来统一处理多种信息类型的模型的理想选择。
Janus-Pro 是一个统一的理解和生成 MLLM,它将视觉编码解耦,以实现多模态理解和生成。
Janus-Pro 是基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建的。
尝试这个的最简单方法是使用Hugging Face Spaces 演示。
尝试了以下提示来实现图像生成功能:
A photo of a raccoon holding a handwritten sign that says "I love trash" |
Janus-Pro 现在也被移植到Transformers.js,这意味着您可以在 WebGPU 浏览器(例如 Chrome,网址为 webml-community/janus-pro-webgpu)中直接运行 1B 模型(加载约 2.24 GB 的模型文件)。
Qwen 系列视觉 LLM 中的最新产品
发布了多个版本:基本模型和 3B、7B 和 72B 的指令调整模型。[url=https://github.com/QwenLM/Qwen2.5-VL/blob/main/README.md]他们的 README 中[/url]有很多附加信息。
72B 型号可以在 Qwen 的Qwen Chat界面上选择。
VB 指出,Qwen 2.5 VL 7B 的视觉基准测试表明其表现优于 GPT-4o mini!
千问Qwen2.5 VL 系列产品
Qwen 也刚刚出版了一套cookbooks:
- universal_recognition.ipynb演示了基本的视觉问答,包括“Who are these in this picture? Please give their names in Chinese and English”针对名人照片的提示,这是其他模型故意抑制的能力。
- spatial_understanding.ipynb演示了边界框支持,并带有如下提示:Locate the top right brown cake, output its bbox coordinates using JSON format。
- video_understanding.ipynb将视频分解成单独的帧,并提出以下问题:Could you go into detail about the content of this long video?
- ocr.ipynb显示Qwen2.5-VL-7B-Instruct以多种不同语言执行 OCR。
- document_parsing.ipynb使用 Qwen 将文档图像转换为 HTML 和其他格式,并指出“我们引入了一种独特的 Qwenvl HTML 格式,其中包含每个组件的位置信息,从而实现精确的文档重建和操作。”
- mobile_agent.ipynb运行 Qwen 并使用工具来控制手机,类似于 ChatGPT Operator 或 Claude Computer Use。
- computer_use.ipynb展示了“GUI 基础”——输入用户桌面的屏幕截图并运行工具,例如左键单击特定坐标。