Meta Llama 3.2模型很棒,确实是开源万神殿的一大补充。它非常适合日常使用,考虑到隐私和成本,它可以成为 GPT-4o 这类任务的潜在替代品。不过,GPT-4o 对于困难任务还是更胜一筹,比如医学图像分析、股票图表分析等等。
Meta 发布了新迭代的 Llama 3 模型;这一次,有四种用于不同用途的模型:两个多模态模型,Llama 3.2 11B 和 90B,以及两个用于边缘设备的小语言模型,1B 和 3B。
这是 Meta AI 的首批多模式模型,基准测试表明它们是小型和中型专有替代品的强大竞争对手。我不太喜欢 LLM 基准测试;它们往往具有误导性,可能无法代表现实世界的性能。不过,您可以在官方博客文章中查看结果。
我想在日常遇到的最常见的视觉任务上测试该模型,并将其性能与我常用的 GPT-4o 进行比较。
我重点负责的任务包括:
- 基本图像理解
- 医疗处方及报告分析
- 从图像中提取文本
- 财务图表解读
如果你很忙,还有其他事情要做,这里是文章的摘要。
- 通用图像理解:两种模型在通用图像理解方面均表现良好。虽然 GPT-4o 仍然是更优秀的模型,但考虑到成本与效用比,Llama 3.2 更胜一筹。
- 医疗处方和报告理解:我加了这个类别,因为我经常用视觉模型来做这个。在医疗报告分析方面,GPT4o 还是比较好的。
- 财务聊天分析: Llama 3.2 在理解复杂图表时产生幻觉。
- 文本提取:从技术上讲, Llama 3.2 可以从图像中提取文本。但我发现 GPT-4o 更有效。
详细点击标题
网友:
1、Qwen VL 和 Molmo 似乎在各方面都表现更好。我不确定 Pixtral 是否如此,它的图像编码风格非常不同,这应该会让它在某些任务上具有优势。
2、可以用来从图像中提取文本吗?它对于精确提取(例如发票、表格等)不太可靠。它适用于标准文本。
3、运行70b :I Gradio + Together AI + potato
4、对骨折的判断不都正确:GPT-4 说这是移位骨折,而 Llama3.2 说是干净的,没有移位。
5、我的 90B 正在运行,目前给我留下了深刻的印象。 它能够生成标准图像的详细描述,这些都是我知道它受过训练的典型图像。
11 B 无法理解或描述一些不太典型的图像。 我给它看了一张会议截图,要求它计算与会者人数,它完美地完成了任务。 它识别出了 13 个人,并描述了他们的穿着,100% 成功。
然后,我给它看了一张声学频谱图,并让它编写代码来识别主要的声学信号。 我剪切并粘贴了它生成的代码,只需调整阈值,它就能完美运行,并在主要特征上用红色 X 修改了输入图像。