英伟达发布了强大的开源人工智能模型,可与 OpenAI 和 Google 等行业领导者的专有系统竞争。
该公司新推出的NVLM 1.0系列大型多模态语言模型,以 720 亿参数的NVLM-D-72B为首,在视觉和语言任务中表现卓越,同时还增强了纯文本功能。
一个关键优势:NVLM-D-1.0-72B 在纯文本数学和编码基准测试中比其文本主干有了显着的改进。
- 72 B在数学和编码方面与Llama 3.1 405 B不相上下,并且还具有视觉功能
英伟达宣布:我们推出了 NVLM 1.0,这是一系列前沿级多模态大型语言模型,在视觉语言任务上取得了最先进的成果,可与领先的专有模型(例如 GPT-4o)和开放获取模型相媲美。
将 NVIDIA 的 NVLM-D 模型与 GPT-4、Claude 3.5 和 Llama 3-V 等 AI 巨头进行比较的基准测试结果显示,NVLM-D 在各种视觉和语言任务中都具有竞争力。
通过公开模型权重并承诺发布训练代码,Nvidia 打破了先进 AI 系统封闭的趋势。这一决定让研究人员和开发人员获得了前所未有的接触尖端技术的机会。
NVLM-D-72B:视觉和文本任务的多才多艺的执行者
NVLM-D-72B 模型在处理复杂的视觉和文本输入方面表现出了令人印象深刻的适应性。研究人员提供了一些示例,突出了该模型解释模因、分析图像和逐步解决数学问题的能力。
值得注意的是,NVLM-D-72B 在经过多模态训练后,在纯文本任务上的表现有所提高。虽然许多类似模型的文本性能有所下降,但 NVLM-D-72B 在关键文本基准测试中将其准确率平均提高了 4.3 分。
英伟达Nvidia 决定公开如此强大的模型,这可能会加速整个领域的 AI 研究和开发。通过提供可与资金雄厚的科技公司专有系统相媲美的模型,Nvidia 可能会让较小的组织和独立研究人员为 AI 进步做出更大贡献。
NVLM 项目还引入了创新的架构设计,包括结合不同多模态处理技术的混合方法。这一发展可能会影响该领域未来的研究方向。
总之:
NVLM 1.0 的发布是 LLM 发展历程中的一个重要里程碑。它的开源特性使开发人员、研究人员和整个 AI 生态系统能够推动该领域的发展并开拓自然语言处理的新领域。凭借其巨大的潜力和可访问性,NVLM 1.0 有望加快创新步伐并重新定义 AI 应用的格局。