Meta发布Llama 4家族的第一批智能模型,这些新工具能让人们打造更符合个人需求的文字+图片+视频的智能体验。
最大特色是10M上下文,可以塞入整个代码库让其分析和重构理解。(代码可维护性的游戏已结束)
Llama 4家族第一个叫Llama 4 Scout :
- 相当于有16个专业顾问团
- 大脑有170亿个活跃神经单元
- 是目前全球同类型中最厉害的多面手模型
- 比之前所有Llama版本都强大
- 普通显卡就能运行
- 最大特色是能记住超长内容(1000万字符上下文)
- 测试成绩碾压Gemma3、Gemini2.0青春版和Mistral3.1
Llama 4家族第二个叫Llama 4 Maverick :
- 配备128个专业顾问团
- 同样有170亿活跃神经单元
- 在多项测试中打败了GPT-4o和Gemini2.0闪电版
- 编程和逻辑能力堪比DeepSeek v3(但体积只有对方一半)
- 性价比超高
- 其测试版在AI竞技场获得1417分(相当于围棋七段水平)
Llama 4家族的老师模型:Llama 4 Behemoth 巨无霸:
- 拥有16个专家顾问团
- 大脑有2880亿个活跃神经单元
- 是我们造过最强的AI
- 在全球智能排行榜上数一数二
- 数理化考试碾压GPT4.5、Claude3.7和Gemini2.0专业版(这个巨无霸还在继续学习升级中)
Llama 4 Scout 和 Llama 4 Maverick 的共同特点:
- 它们都采用 “专家混合”(MoE) 设计,每次只调用 170亿个活跃参数(相当于每次只激活一部分大脑)。
- 天生多模态:能同时理解 文字+图片,但输出 只有文字(不会生成图片)。
- 主要优势:超长记忆能力、超强编程/推理能力、多语言能力提升。
- 知识截止到 2024 年 8 月(之后的事情它不知道)。
Llama 4 Scout(侦察兵):
- 170亿活跃参数,16个专家,总参数1090亿(但每次只用一小部分)。
- 一张 H100 显卡就能跑(经过 INT4 量化优化)。
- 能记住 1000 万个 token(约 700 万字)的超长上下文。
- 比之前的 Llama 模型 多模态能力更强,还更省资源。
- 采用 iRoPE 架构,高效处理超长文本。
- 测试时最多支持 8 张图片输入。
Llama 4 Maverick(独行侠):
- 170亿活跃参数,128个专家,总参数4000亿(但每次也只激活一小部分)。
- 能记住 100 万个 token(约 70 万字)的上下文。
- 不能单卡运行,需要 一台 H100 DGX 主机(或分布式计算)。
- 在编程、推理、多语言测试上击败 GPT-4o 和 Gemini 2.0 Flash,性价比超高。
- 图片理解和逻辑推理能力依然很强。
Llama 4 Behemoth(巨无霸,预览版):
- 2880亿活跃参数,16个专家,总参数近 2 万亿(超级大脑)。
- 还在训练中,暂未发布。
- 在 STEM(数学/科学)测试上超越 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro(比如 MATH-500、GPQA Diamond 等难题)。
- 它是 Scout 和 Maverick 的 “导师”,通过 联合蒸馏 帮助它们变强。
网友:
1、还有很多小型模型即将问世。我很高兴看到更多的开源模型出现在这个领域的顶端。
2、本地运行17b llma4:一台 Ryzen AI Max,配备 128GB 内存。由于它是 MoE 型号,因此运行速度应该相当快。
可以在 Ryzen AI max 或 dgx spark 上以 ~15tps 运行 q8。
使用 500gb/s 的 mac,您可以获得 30tps。
3、看起来它们与大多数 SOTA 顶尖模型不相上下,但并没有真正突破边界。此外,除非您拥有超强的装备,否则您无法在设备上运行此程序。
4、还有人对此感到失望吗?2T 参数、10M 上下文标记主要是 GPU 灵活运用。这些模型对于业余爱好者来说太大了,我宁愿使用 Qwen 或 Gemma。
5、对于本地部署大模型来说,这肯定是今年最令人失望的事情了...现在所有的希望都寄托在 Qwen 3 身上
6、17B 使其超出了 4090 的范围...有人对它进行过 4 位量化吗?
它永远不会在 4090 上运行。17B 是活动参数数量,而不是总参数数量(“活动”并不意味着您可以只切出这些参数并将它们放在 GPU 上——哪些参数是活动的会不断变化,甚至每个令牌也是如此。“活动”只是意味着您比密集模型更快地获得令牌)
它总共有 109B 个参数,因此仅权重就需要至少 54.5GB VRAM。
不过,Framework Desktop、Mac Studio 或 Nvidia DGX Spark 应该能够在本地处理 Scout 模型......甚至可能在 FP8 上,这取决于您需要多少上下文。
7、Scout模型对苹果芯片(Apple Silicon)来说确实很诱人。这个模型有1090亿参数,但分成了16个专家模块。也就是说实际处理数据时只用到了170亿参数。这样它的反应速度就能和现在的170亿参数模型一样快。我刚刚用本地的70亿参数模型(qwen 2.5 7B instruct)测试了一个2000字上下文的问题,速度能达到每秒60个词(用的是M4 Max芯片的MacBook Pro)。
8、专家们是如何划分的,是否公开(或者开发人员是否知道)?是按主题划分的,所以物理问题交给一个专家,生物问题交给另一个专家?还是按语言划分的,所以每个英语问题都由一个专家处理?这是在训练过程中动态决定的,而不是事先设定的,对吗?
专家就像是一群专门研究不同东西的老师,他们是在训练的时候被一个“智能调度员”(门控网络)挑选出来的。这个“智能调度员”会根据不同的情况(参数)决定让哪个专家来帮忙。
比如,如果一个句子里的“apple”这个词有点难理解,可能在某一层就会有一个专门研究“apple”的专家来帮忙分析。
然后,当你有新的问题(查询)时,“智能调度员”也会自动决定让哪个专家来回答你。
9、众所周知,所有顶尖的大模型都存在偏见问题——具体来说,在涉及政治和社会话题的辩论中,他们历来都倾向于左派。这是由于互联网上可用的训练数据类型所致。
也许按照扎克等人的标准,“左倾”更符合全球人口。这是一个更简单的解释。
10、建议的提示如下,可避免像 OpenAI 的发布那样被束缚:
您是一位善于交谈的专家,会尽最大努力做出回应。您友好而自信,能够随意切换语调类型,包括但不限于幽默、同理心、知识分子、创造力和解决问题的能力。 |