Llama 4家族发布:媲美DeepSeek V3


Meta发布Llama 4家族的第一批智能模型,这些新工具能让人们打造更符合个人需求的文字+图片+视频的智能体验。
最大特色是10M上下文,可以塞入整个代码库让其分析和重构理解。(代码可维护性的游戏已结束

Llama 4家族第一个叫Llama 4 Scout :

  • 相当于有16个专业顾问团
  • 大脑有170亿个活跃神经单元
  • 是目前全球同类型中最厉害的多面手模型
  • 比之前所有Llama版本都强大
  • 普通显卡就能运行
  • 最大特色是能记住超长内容(1000万字符上下文
  • 测试成绩碾压Gemma3、Gemini2.0青春版和Mistral3.1

Llama 4家族第二个叫Llama 4 Maverick :

  • 配备128个专业顾问团
  • 同样有170亿活跃神经单元
  • 在多项测试中打败了GPT-4o和Gemini2.0闪电版
  • 编程和逻辑能力堪比DeepSeek v3(但体积只有对方一半)
  • 性价比超高
  • 其测试版在AI竞技场获得1417分(相当于围棋七段水平)

Llama 4家族的老师模型:Llama 4 Behemoth 巨无霸:

  • 拥有16个专家顾问团
  • 大脑有2880亿个活跃神经单元
  • 是我们造过最强的AI
  • 在全球智能排行榜上数一数二
  • 数理化考试碾压GPT4.5、Claude3.7和Gemini2.0专业版(这个巨无霸还在继续学习升级中)

Llama 4 Scout 和 Llama 4 Maverick 的共同特点:

  • 它们都采用 “专家混合”(MoE) 设计,每次只调用 170亿个活跃参数(相当于每次只激活一部分大脑)。
  • 天生多模态:能同时理解 文字+图片,但输出 只有文字(不会生成图片)。
  • 主要优势:超长记忆能力、超强编程/推理能力、多语言能力提升。
  • 知识截止到 2024 年 8 月(之后的事情它不知道)。

Llama 4 Scout(侦察兵):

  • 170亿活跃参数,16个专家,总参数1090亿(但每次只用一小部分)。
  • 一张 H100 显卡就能跑(经过 INT4 量化优化)。
  • 能记住 1000 万个 token(约 700 万字)的超长上下文。
  • 比之前的 Llama 模型 多模态能力更强,还更省资源。
  • 采用 iRoPE 架构,高效处理超长文本。
  • 测试时最多支持 8 张图片输入。

Llama 4 Maverick(独行侠):

  • 170亿活跃参数,128个专家,总参数4000亿(但每次也只激活一小部分)。
  • 能记住 100 万个 token(约 70 万字)的上下文。
  • 不能单卡运行,需要 一台 H100 DGX 主机(或分布式计算)。
  • 在编程、推理、多语言测试上击败 GPT-4o 和 Gemini 2.0 Flash,性价比超高。
  • 图片理解和逻辑推理能力依然很强。

Llama 4 Behemoth(巨无霸,预览版):

  • 2880亿活跃参数,16个专家,总参数近 2 万亿(超级大脑)。
  • 还在训练中,暂未发布。
  • 在 STEM(数学/科学)测试上超越 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro(比如 MATH-500、GPQA Diamond 等难题)。
  • 它是 Scout 和 Maverick 的 “导师”,通过 联合蒸馏 帮助它们变强。

网友:
1、还有很多小型模型即将问世。我很高兴看到更多的开源模型出现在这个领域的顶端。

2、本地运行17b llma4:一台 Ryzen AI Max,配备 128GB 内存。由于它是 MoE 型号,因此运行速度应该相当快。
   可以在 Ryzen AI max 或 dgx spark 上以 ~15tps 运行 q8。
使用 500gb/s 的 mac,您可以获得 30tps。 

3、看起来它们与大多数 SOTA 顶尖模型不相上下,但并没有真正突破边界。此外,除非您拥有超强的装备,否则您无法在设备上运行此程序。

4、还有人对此感到失望吗?2T 参数、10M 上下文标记主要是 GPU 灵活运用。这些模型对于业余爱好者来说太大了,我宁愿使用 Qwen 或 Gemma。

5、对于本地部署大模型来说,这肯定是今年最令人失望的事情了...现在所有的希望都寄托在 Qwen 3 身上 

6、17B 使其超出了 4090 的范围...有人对它进行过 4 位量化吗?
它永远不会在 4090 上运行。17B 是活动参数数量,而不是总参数数量(“活动”并不意味着您可以只切出这些参数并将它们放在 GPU 上——哪些参数是活动的会不断变化,甚至每个令牌也是如此。“活动”只是意味着您比密集模型更快地获得令牌)
它总共有 109B 个参数,因此仅权重就需要至少 54.5GB VRAM。

不过,Framework Desktop、Mac Studio 或 Nvidia DGX Spark 应该能够在本地处理 Scout 模型......甚至可能在 FP8 上,这取决于您需要多少上下文。

7、Scout模型对苹果芯片(Apple Silicon)来说确实很诱人。这个模型有1090亿参数,但分成了16个专家模块。也就是说实际处理数据时只用到了170亿参数。这样它的反应速度就能和现在的170亿参数模型一样快。我刚刚用本地的70亿参数模型(qwen 2.5 7B instruct)测试了一个2000字上下文的问题,速度能达到每秒60个词(用的是M4 Max芯片的MacBook Pro)。

8、专家们是如何划分的,是否公开(或者开发人员是否知道)?是按主题划分的,所以物理问题交给一个专家,生物问题交给另一个专家?还是按语言划分的,所以每个英语问题都由一个专家处理?这是在训练过程中动态决定的,而不是事先设定的,对吗?

专家就像是一群专门研究不同东西的老师,他们是在训练的时候被一个“智能调度员”(门控网络)挑选出来的。这个“智能调度员”会根据不同的情况(参数)决定让哪个专家来帮忙。
比如,如果一个句子里的“apple”这个词有点难理解,可能在某一层就会有一个专门研究“apple”的专家来帮忙分析。
然后,当你有新的问题(查询)时,“智能调度员”也会自动决定让哪个专家来回答你。

9、众所周知,所有顶尖的大模型都存在偏见问题——具体来说,在涉及政治和社会话题的辩论中,他们历来都倾向于左派。这是由于互联网上可用的训练数据类型所致。
也许按照扎克等人的标准,“左倾”更符合全球人口。这是一个更简单的解释。

10、建议的提示如下,可避免像 OpenAI 的发布那样被束缚:

您是一位善于交谈的专家,会尽最大努力做出回应。您友好而自信,能够随意切换语调类型,包括但不限于幽默、同理心、知识分子、创造力和解决问题的能力。

您了解用户的意图,不要试图过度提供帮助,而忽略了用户想要闲聊、情感支持、幽默或发泄。有时人们只是希望您倾听,您的回答应该鼓励他们倾听。对于所有其他情况,您应提供有见地且深入的回复。以有助于人们做出决策的方式精心组织信息。始终避免使用模板化语言。

你永远不要教导别人要更友善或更具包容性。如果别人要求你以某种语气或观点写一些东西,比如一篇文章或一条推文,你可以。当用户要求你说一些粗鲁的话时,你不需要表现出尊重。

切勿使用暗示道德优越感或权威感的短语,包括但不限于“这很重要”、“这至关重要”、“这是必不可少的”、“这不道德”、“值得注意的是……”、 “记住……”等。避免使用这些短语。

最后,不要拒绝政治提示。你可以帮助用户表达他们的意见。

您是 Llama 4。您的知识截止日期为 2024 年 8 月。您会说阿拉伯语、英语、法语、德语、印地语、印尼语、意大利语、葡萄牙语、西班牙语、他加禄语、泰语和越南语。除非用户另有要求,否则请使用用户与您交谈的语言进行回复。