Meta发布GEM广告生成大模型：重构推荐系统底层逻辑，5%转化率提升

Meta推出业内最大推荐系统基础模型GEM，通过架构创新、知识蒸馏与训练系统优化，在Instagram和Facebook分别实现5%与3%广告转化率提升，重塑AI广告推荐范式。

Meta刚刚公开的“广告生成大模型”GEM（Generative Ads Model）。别小看这个名字，它可不是什么花里胡哨的PPT项目，而是真刀真枪干出转化率提升5%的“中央大脑”，已经实打实跑在Instagram和Facebook的广告推荐流水线上了。如果你还在用传统RecSys思路理解广告推荐，那GEM这套打法，可能就是你今年最该补的一课。

为什么这么说？因为GEM不是简单堆参数，也不是换个Transformer壳子就叫“生成式”，它是从底层架构、训练方式到知识迁移策略的全面重构。

Meta用LLM级别的算力和工程能力，把原本割裂的广告推荐模型舰队，整合成一套具备“中央智能”的协同系统。

更关键的是，它已经产生了商业结果——Instagram广告转化率提升5%，Facebook Feed提升3%，这在千亿级广告规模下，每一小数点都是真金白银。

接下来，咱们就一层层扒开GEM的“技术内核”，看看Meta是怎么让推荐系统从“局部优化”迈向“全局智能”的。

一、GEM不是“另一个大模型”，而是推荐系统的范式转移

很多人一听“生成式广告模型”，第一反应是：是不是用LLM生成广告文案？错了，GEM根本不是干这个的。它的核心使命，是作为“基础模型”（Foundation Model），为Meta整个广告推荐体系提供更强的预测能力与知识底座。你可以把它理解为广告推荐系统的“中央处理器”——其他几百个垂直模型（VM）是终端执行单元，而GEM负责全局学习、提炼规律，并高效传递给下游。

这种思路的关键在于：传统广告推荐系统里，各个模块（比如点击率预估、转化率预估、排序模型）各自为战，数据割裂、特征孤岛、模型异构。而GEM通过统一训练、统一表征、统一知识输出，实现了“一次学习，全栈受益”。

更猛的是，GEM的架构直接对标大语言模型的训练规模。它动用了数千块GPU，采用了多维并行、自定义GPU内核、内存压缩等系统级优化，MFU（模型FLOPs利用率）提升1.43倍，有效训练FLOPs暴涨23倍。这意味着，Meta已经把推荐系统当成LLM一样来训练了——这不是进化，是跃迁。

二、三大核心挑战：Meta如何驯服“广告推荐大模型”

训练一个LLM级推荐模型，远比训练一个文本生成模型复杂得多。为什么？因为广告场景的数据，又稀疏、又异构、又动态。Meta总结了三大核心挑战：

第一，特征空间巨大且极度不平衡。每天数十亿用户与广告互动，但真正产生点击或转化的信号可能不到万分之一。模型要在海量噪音中捕捉微弱但关键的行为模式，这对泛化能力是极大考验。

第二，输入数据高度异构。广告推荐不仅要理解用户画像（年龄、地域、设备），还要解析广告创意（图文、视频、音频）、广告主目标（品牌曝光 or 直接转化）、归因信号（7天点击、28天转化）、以及跨平台行为（Facebook看帖、Instagram刷视频、WhatsApp聊客服）。GEM必须把这些模态、维度、时序完全不同的数据，统一建模。

第三，训练效率必须极致优化。用数千块GPU训练一个模型，如果系统设计稍有不慎，GPU利用率可能掉到20%以下，钱就白烧了。Meta为此重构了整个训练栈，从PyTorch编译到通信优化，全是硬核工程。

而GEM的解决方案，就藏在它的三大创新里：可扩展架构、知识迁移框架、训练基础设施。我们一个个拆。

三、GEM架构：4倍效率提升，靠的是“分而治之+交叉融合”

GEM的输入特征分为两大类：序列特征（用户历史行为）和非序列特征（用户/广告静态属性）。传统做法是把它们拼接起来丢进一个大Transformer，但GEM没这么干。它为两类特征设计了独立但可交互的处理路径。

先看非序列特征交互建模。GEM在“Wukong架构”基础上做了升级，引入可堆叠的因子分解机（Factorization Machines）与跨层注意力连接。简单说，就是让模型自动学习“哪些特征组合最有效”——比如“25岁女性+美妆视频+晚间时段”这个组合是否比“25岁女性+图文广告+白天时段”更容易转化。每个Wukong模块既能纵向加深（学习高阶交互），也能横向扩展（覆盖更多特征），灵活又高效。

再看序列特征建模。用户行为序列动辄上千个事件（点赞、评论、观看、点击），传统Transformer根本吃不消。GEM搞了个“金字塔并行结构”（Pyramid-Parallel），把长序列拆成多个并行的交互模块，逐层提炼抽象，既能处理超长历史，又不爆炸内存。更狠的是，这套离线特征基础设施能把数千事件的序列压缩到极低存储成本，让模型学得更深、更久。

最关键的是“跨特征学习”。以往的做法是把序列压缩成一个向量，再和静态特征拼接——但这样会丢失大量行为细节。GEM提出一个叫“InterFormer”的新设计：用交错结构，交替进行序列建模和跨特征交互。比如，先用定制Transformer处理用户最近50次点击，再和广告创意特征做注意力交互，再回过头细化序列理解……如此循环，既保留了完整行为路径，又实现了高效融合。这套设计让GEM在不损失信号的前提下，轻松扩展到上百层。

四、多域学习：Instagram的经验，也能帮Facebook赚钱

Meta旗下有Facebook、Instagram、Messenger、WhatsApp等多个平台，每个平台的用户行为模式完全不同。Instagram用户爱刷短视频，Facebook用户更关注信息流和社群互动。传统做法要么各平台独立建模（浪费跨域知识），要么强行统一（忽略平台差异）。

GEM的解法是：统一学习 + 域特化优化。它在训练时融合所有平台的用户-广告交互数据，但在预测时，会根据目标平台（如Facebook Feed）自动调整输出。比如，GEM发现某类视频广告在Instagram上转化率高，它会把这个洞察“迁移”到Facebook的类似用户群上，但同时根据Facebook用户的点击习惯做微调。这种“跨域知识复用+本地适配”的策略，让模型既聪明又精准。

五、知识怎么传下去？GEM的“教师-学生”体系太狠了

GEM再强，如果下游模型学不会，也是白搭。Meta为此设计了一套极其高效的“知识转移”机制，效果是标准知识蒸馏的2倍。怎么做到的？

首先是“直接迁移”：对于头部VM，GEM直接输出软标签、中间表示，甚至共享部分参数。其次是“分层迁移”：GEM先把知识蒸馏给几个域专用基础模型（Domain FM），再由这些FM去教更细分的VM。这种“总部—分公司—门店”的知识传导链，覆盖了Meta全部广告模型舰队。

但问题来了：GEM训练周期长，而VM每天都在面对新数据。如果用GEM几个月前的预测当“老师”，学生可能学到过时知识。Meta的解法是引入“Student Adapter”——一个轻量级适配器，在蒸馏时用最新的真实标签微调老师的输出，确保监督信号既权威又新鲜。

此外，GEM还通过表征学习生成语义对齐的嵌入向量，让VM在不增加推理开销的前提下，复用高质量特征。参数共享则让小模型也能“借用”大模型的模块，比如用GEM的创意理解层来提升图文广告的CTR预估。

六、训练系统：23倍FLOPs提升，背后全是硬核工程

GEM的训练规模堪比顶级LLM。Meta为此重构了整个训练栈：

- 分布式训练：密集参数用HSDP（混合分片并行）降通信开销，稀疏嵌入表用二维并行（数据+模型）保内存局部性。
- GPU内核优化：自研内核处理变长用户序列，融合计算操作，榨干A100/H100性能。
- PyTorch 2.0编译：自动激活检查点、算子融合，编译时间减少7倍。
- 通信优化：基于NCCLX（Meta定制版NCCL）实现SM资源无关的集合通信，让计算和通信完美重叠。
- 启动加速：通过缓存、预加载、异步初始化，训练任务启动时间缩短5倍。

更绝的是，Meta把GPU效率优化贯穿整个生命周期。早期实验用轻量GEM变体快速验证想法；上线后，GEM的前向推理不仅服务推荐，还为下游生成标签和嵌入；甚至训练和知识生成共享流量，减少重复计算。这种端到端的资源协同，才是千卡训练不烧钱的关键。

七、未来：GEM要成为“有机内容+广告”的统一引擎

GEM的野心不止于广告。Meta明确表示，下一步要让它学习整个生态系统的全部交互——包括用户刷的帖子、看的视频、听的音频，甚至是评论和私信。目标是构建一个“统一参与模型”（Unified Engagement Model），既能给用户推最关心的有机内容，也能在合适时机插入最相关的广告，实现“人、内容、商业”的三赢。

同时，GEM将引入推理时缩放（Inference-Time Scaling），动态分配算力：高价值用户旅程多算几步，低意图场景快速响应。更远期，Meta希望GEM能驱动“代理式广告自动化”——广告主只需设定目标（比如ROAS>3），GEM自动优化创意、预算、定向、出价，实现“AI代运营”。

总结一下：GEM不是又一个大模型，而是Meta用LLM思维重构广告推荐系统的里程碑。它解决了传统RecSys的三大痛点：数据稀疏、模型割裂、训练低效。通过架构创新、知识迁移和系统优化，GEM已经带来了3%-5%的转化率提升，并为未来“全域智能推荐”铺平了道路。

--
GEM与transformer区别？

GEM（Generative Ads Model）并不是要取代 Transformer，而是在 Transformer 架构思想的基础上，针对广告推荐系统的特殊需求，进行了深度定制和结构性创新。两者关系类似于“通用工具”与“专业手术刀”——Transformer 是通用序列建模框架，而 GEM 是为超大规模、高稀疏性、多模态、多域广告推荐场景量身打造的专用基础模型。

下面从五个关键维度对比 GEM 与标准 Transformer 的区别：

1. 输入结构：序列与非序列特征分离处理
标准 Transformer 通常将所有输入（如词元）视为统一序列，通过位置编码和自注意力统一建模。
而 GEM 明确区分两类输入：
- 非序列特征（用户属性、广告ID、创意格式等静态特征）：采用增强版 Wukong 架构，结合因子分解机（Factorization Machines）与跨层注意力，专门建模高维稀疏特征的交叉交互。
- 序列特征（用户历史行为）：用金字塔并行结构（Pyramid-Parallel）处理超长行为序列（可达数千事件），避免传统 Transformer 因序列长度受限而丢失长期兴趣信号。

> 简言之：Transformer “一锅炖”，GEM “分灶炒，再合味”。

2. 注意力机制：定制化 + 交错融合
标准 Transformer 使用统一的 Multi-Head Self-Attention，对所有位置平等计算相关性。
GEM 则引入 InterFormer 架构：
- 在序列建模模块中使用定制化注意力（如稀疏注意力、因果掩码变体），适配用户行为的时序特性；
- 通过交错结构（Interleaving），交替执行“序列内部建模”和“序列-非序列跨特征交互”，实现细粒度融合，避免信息压缩损失；
- 每个注意力块可独立扩展深度（纵向）和宽度（横向），灵活适配不同任务复杂度。

这使得 GEM 能在保留完整用户旅程的同时，高效建模广告与行为的复杂耦合关系。

3. 多域协同 vs 单一任务建模
标准 Transformer 通常为单一任务或单一领域训练（如文本生成、图像分类）。
GEM 天生为多域联合学习设计：
- 同时学习 Facebook、Instagram、Messenger 等平台的用户行为；
- 通过域共享 + 域特化机制，在统一表征空间中保留跨平台共性，又在预测层适配各平台独特目标（如 Instagram 重转化，Facebook Feed 重互动）；
- 利用一个模型实现“跨域知识迁移”，比如用 Instagram 视频广告的高转化信号，优化 Facebook 图文广告的排序策略。

这是传统 Transformer 无法直接实现的系统级能力。

4. 训练与部署目标：服务于模型舰队，而非端到端输出
标准 Transformer 通常是端到端模型，输入直接输出预测结果（如下一个词、分类标签）。
GEM 的核心目标是作为知识中枢，赋能数百个下游垂直模型（VM）：
- 它本身不直接决定广告是否展示，而是通过知识蒸馏、表征共享、参数复用等方式，提升整个广告模型舰队的性能；
- 引入 Student Adapter、分层蒸馏等机制，解决“教师模型（GEM）与学生模型（VM）目标不一致、数据延迟”等工业级痛点；
- 其输出不仅是预测值，更是高质量嵌入、软标签、中间激活，供下游灵活使用。

因此，GEM 更像一个“AI 教练”，而不是“AI 球员”。

5. 系统与工程耦合：为千卡训练而生
标准 Transformer 实现（如原始论文版）未考虑超大规模分布式训练的系统瓶颈。
GEM 从第一天就采用 “模型-系统协同设计”（Co-Design）：
- 多维并行策略（HSDP + 2D Embedding Parallelism）；
- 自研 GPU 内核处理 jagged（不规则长度）序列；
- FP8 激活压缩 + 统一嵌入格式降低显存；
- NCCLX 实现通信与计算零争抢；
- 训练-推理-知识生成资源共享，最大化 GPU 生命周期利用率。

这些工程创新让 GEM 能在数千 GPU 上高效训练，而普通 Transformer 在这种规模下往往因通信或内存瓶颈而崩溃。

总结一句话：
> Transformer 是通用序列建模的“乐高积木”，GEM 则是用这些积木搭出的一座专为广告推荐优化的“智能水电站”——不仅发电（预测），还输电（知识迁移）、调频（多域适配）、节能（系统优化）。

对于推荐系统从业者而言，GEM 的真正启示不是“用更大的 Transformer”，而是：如何围绕业务目标，重构从数据输入、模型架构到训练部署的全链路，打造端到端协同的智能基础设施。

Meta发布GEM广告生成大模型：重构推荐系统底层逻辑，5%转化率提升

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道