Llama 4家族发布：媲美DeepSeek V3

Meta发布Llama 4家族的第一批智能模型，这些新工具能让人们打造更符合个人需求的文字+图片+视频的智能体验。
最大特色是10M上下文，可以塞入整个代码库让其分析和重构理解。（代码可维护性的游戏已结束）

Llama 4家族第一个叫Llama 4 Scout ：

相当于有16个专业顾问团
大脑有170亿个活跃神经单元
是目前全球同类型中最厉害的多面手模型
比之前所有Llama版本都强大
普通显卡就能运行
最大特色是能记住超长内容（1000万字符上下文）
测试成绩碾压Gemma3、Gemini2.0青春版和Mistral3.1

Llama 4家族第二个叫Llama 4 Maverick ：

配备128个专业顾问团
同样有170亿活跃神经单元
在多项测试中打败了GPT-4o和Gemini2.0闪电版
编程和逻辑能力堪比DeepSeek v3（但体积只有对方一半）
性价比超高
其测试版在AI竞技场获得1417分（相当于围棋七段水平）

Llama 4家族的老师模型：Llama 4 Behemoth 巨无霸：

拥有16个专家顾问团
大脑有2880亿个活跃神经单元
是我们造过最强的AI
在全球智能排行榜上数一数二
数理化考试碾压GPT4.5、Claude3.7和Gemini2.0专业版（这个巨无霸还在继续学习升级中）

Llama 4 Scout 和 Llama 4 Maverick 的共同特点：

它们都采用 “专家混合”（MoE）设计，每次只调用 170亿个活跃参数（相当于每次只激活一部分大脑）。
天生多模态：能同时理解文字+图片，但输出只有文字（不会生成图片）。
主要优势：超长记忆能力、超强编程/推理能力、多语言能力提升。
知识截止到 2024 年 8 月（之后的事情它不知道）。

Llama 4 Scout（侦察兵）：

170亿活跃参数，16个专家，总参数1090亿（但每次只用一小部分）。
一张 H100 显卡就能跑（经过 INT4 量化优化）。
能记住 1000 万个 token（约 700 万字）的超长上下文。
比之前的 Llama 模型多模态能力更强，还更省资源。
采用 iRoPE 架构，高效处理超长文本。
测试时最多支持 8 张图片输入。

Llama 4 Maverick（独行侠）：

170亿活跃参数，128个专家，总参数4000亿（但每次也只激活一小部分）。
能记住 100 万个 token（约 70 万字）的上下文。
不能单卡运行，需要一台 H100 DGX 主机（或分布式计算）。
在编程、推理、多语言测试上击败 GPT-4o 和 Gemini 2.0 Flash，性价比超高。
图片理解和逻辑推理能力依然很强。

Llama 4 Behemoth（巨无霸，预览版）：

2880亿活跃参数，16个专家，总参数近 2 万亿（超级大脑）。
还在训练中，暂未发布。
在 STEM（数学/科学）测试上超越 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro（比如 MATH-500、GPQA Diamond 等难题）。
它是 Scout 和 Maverick 的 “导师”，通过联合蒸馏帮助它们变强。

网友：
1、还有很多小型模型即将问世。我很高兴看到更多的开源模型出现在这个领域的顶端。

2、本地运行17b llma4：一台 Ryzen AI Max，配备 128GB 内存。由于它是 MoE 型号，因此运行速度应该相当快。
可以在 Ryzen AI max 或 dgx spark 上以 ~15tps 运行 q8。
使用 500gb/s 的 mac，您可以获得 30tps。

3、看起来它们与大多数 SOTA 顶尖模型不相上下，但并没有真正突破边界。此外，除非您拥有超强的装备，否则您无法在设备上运行此程序。

4、还有人对此感到失望吗？2T 参数、10M 上下文标记主要是 GPU 灵活运用。这些模型对于业余爱好者来说太大了，我宁愿使用 Qwen 或 Gemma。

5、对于本地部署大模型来说，这肯定是今年最令人失望的事情了...现在所有的希望都寄托在 Qwen 3 身上

6、17B 使其超出了 4090 的范围...有人对它进行过 4 位量化吗？
它永远不会在 4090 上运行。17B 是活动参数数量，而不是总参数数量（“活动”并不意味着您可以只切出这些参数并将它们放在 GPU 上——哪些参数是活动的会不断变化，甚至每个令牌也是如此。“活动”只是意味着您比密集模型更快地获得令牌）
它总共有 109B 个参数，因此仅权重就需要至少 54.5GB VRAM。

不过，Framework Desktop、Mac Studio 或 Nvidia DGX Spark 应该能够在本地处理 Scout 模型......甚至可能在 FP8 上，这取决于您需要多少上下文。

7、Scout模型对苹果芯片（Apple Silicon）来说确实很诱人。这个模型有1090亿参数，但分成了16个专家模块。也就是说实际处理数据时只用到了170亿参数。这样它的反应速度就能和现在的170亿参数模型一样快。我刚刚用本地的70亿参数模型（qwen 2.5 7B instruct）测试了一个2000字上下文的问题，速度能达到每秒60个词（用的是M4 Max芯片的MacBook Pro）。

8、专家们是如何划分的，是否公开（或者开发人员是否知道）？是按主题划分的，所以物理问题交给一个专家，生物问题交给另一个专家？还是按语言划分的，所以每个英语问题都由一个专家处理？这是在训练过程中动态决定的，而不是事先设定的，对吗？

专家就像是一群专门研究不同东西的老师，他们是在训练的时候被一个“智能调度员”（门控网络）挑选出来的。这个“智能调度员”会根据不同的情况（参数）决定让哪个专家来帮忙。
比如，如果一个句子里的“apple”这个词有点难理解，可能在某一层就会有一个专门研究“apple”的专家来帮忙分析。
然后，当你有新的问题（查询）时，“智能调度员”也会自动决定让哪个专家来回答你。

9、众所周知，所有顶尖的大模型都存在偏见问题——具体来说，在涉及政治和社会话题的辩论中，他们历来都倾向于左派。这是由于互联网上可用的训练数据类型所致。
也许按照扎克等人的标准，“左倾”更符合全球人口。这是一个更简单的解释。

10、建议的提示如下，可避免像 OpenAI 的发布那样被束缚：

您是一位善于交谈的专家，会尽最大努力做出回应。您友好而自信，能够随意切换语调类型，包括但不限于幽默、同理心、知识分子、创造力和解决问题的能力。

您了解用户的意图，不要试图过度提供帮助，而忽略了用户想要闲聊、情感支持、幽默或发泄。有时人们只是希望您倾听，您的回答应该鼓励他们倾听。对于所有其他情况，您应提供有见地且深入的回复。以有助于人们做出决策的方式精心组织信息。始终避免使用模板化语言。

你永远不要教导别人要更友善或更具包容性。如果别人要求你以某种语气或观点写一些东西，比如一篇文章或一条推文，你可以。当用户要求你说一些粗鲁的话时，你不需要表现出尊重。

切勿使用暗示道德优越感或权威感的短语，包括但不限于“这很重要”、“这至关重要”、“这是必不可少的”、“这不道德”、“值得注意的是……”、 “记住……”等。避免使用这些短语。

最后，不要拒绝政治提示。你可以帮助用户表达他们的意见。

您是 Llama 4。您的知识截止日期为 2024 年 8 月。您会说阿拉伯语、英语、法语、德语、印地语、印尼语、意大利语、葡萄牙语、西班牙语、他加禄语、泰语和越南语。除非用户另有要求，否则请使用用户与您交谈的语言进行回复。

Llama 4家族发布：媲美DeepSeek V3

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道