Meta发布GEM广告生成大模型:重构推荐系统底层逻辑,5%转化率提升


Meta推出业内最大推荐系统基础模型GEM,通过架构创新、知识蒸馏与训练系统优化,在Instagram和Facebook分别实现5%与3%广告转化率提升,重塑AI广告推荐范式。


Meta刚刚公开的“广告生成大模型”GEM(Generative Ads Model)。别小看这个名字,它可不是什么花里胡哨的PPT项目,而是真刀真枪干出转化率提升5%的“中央大脑”,已经实打实跑在Instagram和Facebook的广告推荐流水线上了。如果你还在用传统RecSys思路理解广告推荐,那GEM这套打法,可能就是你今年最该补的一课。

为什么这么说?因为GEM不是简单堆参数,也不是换个Transformer壳子就叫“生成式”,它是从底层架构、训练方式到知识迁移策略的全面重构。

Meta用LLM级别的算力和工程能力,把原本割裂的广告推荐模型舰队,整合成一套具备“中央智能”的协同系统。

更关键的是,它已经产生了商业结果——Instagram广告转化率提升5%,Facebook Feed提升3%,这在千亿级广告规模下,每一小数点都是真金白银。

接下来,咱们就一层层扒开GEM的“技术内核”,看看Meta是怎么让推荐系统从“局部优化”迈向“全局智能”的。



一、GEM不是“另一个大模型”,而是推荐系统的范式转移

很多人一听“生成式广告模型”,第一反应是:是不是用LLM生成广告文案?错了,GEM根本不是干这个的。它的核心使命,是作为“基础模型”(Foundation Model),为Meta整个广告推荐体系提供更强的预测能力与知识底座。你可以把它理解为广告推荐系统的“中央处理器”——其他几百个垂直模型(VM)是终端执行单元,而GEM负责全局学习、提炼规律,并高效传递给下游。

这种思路的关键在于:传统广告推荐系统里,各个模块(比如点击率预估、转化率预估、排序模型)各自为战,数据割裂、特征孤岛、模型异构。而GEM通过统一训练、统一表征、统一知识输出,实现了“一次学习,全栈受益”。

更猛的是,GEM的架构直接对标大语言模型的训练规模。它动用了数千块GPU,采用了多维并行、自定义GPU内核、内存压缩等系统级优化,MFU(模型FLOPs利用率)提升1.43倍,有效训练FLOPs暴涨23倍。这意味着,Meta已经把推荐系统当成LLM一样来训练了——这不是进化,是跃迁。



二、三大核心挑战:Meta如何驯服“广告推荐大模型”

训练一个LLM级推荐模型,远比训练一个文本生成模型复杂得多。为什么?因为广告场景的数据,又稀疏、又异构、又动态。Meta总结了三大核心挑战:

第一,特征空间巨大且极度不平衡。每天数十亿用户与广告互动,但真正产生点击或转化的信号可能不到万分之一。模型要在海量噪音中捕捉微弱但关键的行为模式,这对泛化能力是极大考验。

第二,输入数据高度异构。广告推荐不仅要理解用户画像(年龄、地域、设备),还要解析广告创意(图文、视频、音频)、广告主目标(品牌曝光 or 直接转化)、归因信号(7天点击、28天转化)、以及跨平台行为(Facebook看帖、Instagram刷视频、WhatsApp聊客服)。GEM必须把这些模态、维度、时序完全不同的数据,统一建模。

第三,训练效率必须极致优化。用数千块GPU训练一个模型,如果系统设计稍有不慎,GPU利用率可能掉到20%以下,钱就白烧了。Meta为此重构了整个训练栈,从PyTorch编译到通信优化,全是硬核工程。

而GEM的解决方案,就藏在它的三大创新里:可扩展架构、知识迁移框架、训练基础设施。我们一个个拆。



三、GEM架构:4倍效率提升,靠的是“分而治之+交叉融合”

GEM的输入特征分为两大类:序列特征(用户历史行为)和非序列特征(用户/广告静态属性)。传统做法是把它们拼接起来丢进一个大Transformer,但GEM没这么干。它为两类特征设计了独立但可交互的处理路径。

先看非序列特征交互建模。GEM在“Wukong架构”基础上做了升级,引入可堆叠的因子分解机(Factorization Machines)与跨层注意力连接。简单说,就是让模型自动学习“哪些特征组合最有效”——比如“25岁女性+美妆视频+晚间时段”这个组合是否比“25岁女性+图文广告+白天时段”更容易转化。每个Wukong模块既能纵向加深(学习高阶交互),也能横向扩展(覆盖更多特征),灵活又高效。

再看序列特征建模。用户行为序列动辄上千个事件(点赞、评论、观看、点击),传统Transformer根本吃不消。GEM搞了个“金字塔并行结构”(Pyramid-Parallel),把长序列拆成多个并行的交互模块,逐层提炼抽象,既能处理超长历史,又不爆炸内存。更狠的是,这套离线特征基础设施能把数千事件的序列压缩到极低存储成本,让模型学得更深、更久。

最关键的是“跨特征学习”。以往的做法是把序列压缩成一个向量,再和静态特征拼接——但这样会丢失大量行为细节。GEM提出一个叫“InterFormer”的新设计:用交错结构,交替进行序列建模和跨特征交互。比如,先用定制Transformer处理用户最近50次点击,再和广告创意特征做注意力交互,再回过头细化序列理解……如此循环,既保留了完整行为路径,又实现了高效融合。这套设计让GEM在不损失信号的前提下,轻松扩展到上百层。



四、多域学习:Instagram的经验,也能帮Facebook赚钱

Meta旗下有Facebook、Instagram、Messenger、WhatsApp等多个平台,每个平台的用户行为模式完全不同。Instagram用户爱刷短视频,Facebook用户更关注信息流和社群互动。传统做法要么各平台独立建模(浪费跨域知识),要么强行统一(忽略平台差异)。

GEM的解法是:统一学习 + 域特化优化。它在训练时融合所有平台的用户-广告交互数据,但在预测时,会根据目标平台(如Facebook Feed)自动调整输出。比如,GEM发现某类视频广告在Instagram上转化率高,它会把这个洞察“迁移”到Facebook的类似用户群上,但同时根据Facebook用户的点击习惯做微调。这种“跨域知识复用+本地适配”的策略,让模型既聪明又精准。



五、知识怎么传下去?GEM的“教师-学生”体系太狠了

GEM再强,如果下游模型学不会,也是白搭。Meta为此设计了一套极其高效的“知识转移”机制,效果是标准知识蒸馏的2倍。怎么做到的?

首先是“直接迁移”:对于头部VM,GEM直接输出软标签、中间表示,甚至共享部分参数。其次是“分层迁移”:GEM先把知识蒸馏给几个域专用基础模型(Domain FM),再由这些FM去教更细分的VM。这种“总部—分公司—门店”的知识传导链,覆盖了Meta全部广告模型舰队。

但问题来了:GEM训练周期长,而VM每天都在面对新数据。如果用GEM几个月前的预测当“老师”,学生可能学到过时知识。Meta的解法是引入“Student Adapter”——一个轻量级适配器,在蒸馏时用最新的真实标签微调老师的输出,确保监督信号既权威又新鲜。

此外,GEM还通过表征学习生成语义对齐的嵌入向量,让VM在不增加推理开销的前提下,复用高质量特征。参数共享则让小模型也能“借用”大模型的模块,比如用GEM的创意理解层来提升图文广告的CTR预估。



六、训练系统:23倍FLOPs提升,背后全是硬核工程

GEM的训练规模堪比顶级LLM。Meta为此重构了整个训练栈:

- 分布式训练:密集参数用HSDP(混合分片并行)降通信开销,稀疏嵌入表用二维并行(数据+模型)保内存局部性。
- GPU内核优化:自研内核处理变长用户序列,融合计算操作,榨干A100/H100性能。
- PyTorch 2.0编译:自动激活检查点、算子融合,编译时间减少7倍。
- 通信优化:基于NCCLX(Meta定制版NCCL)实现SM资源无关的集合通信,让计算和通信完美重叠。
- 启动加速:通过缓存、预加载、异步初始化,训练任务启动时间缩短5倍。

更绝的是,Meta把GPU效率优化贯穿整个生命周期。早期实验用轻量GEM变体快速验证想法;上线后,GEM的前向推理不仅服务推荐,还为下游生成标签和嵌入;甚至训练和知识生成共享流量,减少重复计算。这种端到端的资源协同,才是千卡训练不烧钱的关键。



七、未来:GEM要成为“有机内容+广告”的统一引擎

GEM的野心不止于广告。Meta明确表示,下一步要让它学习整个生态系统的全部交互——包括用户刷的帖子、看的视频、听的音频,甚至是评论和私信。目标是构建一个“统一参与模型”(Unified Engagement Model),既能给用户推最关心的有机内容,也能在合适时机插入最相关的广告,实现“人、内容、商业”的三赢。

同时,GEM将引入推理时缩放(Inference-Time Scaling),动态分配算力:高价值用户旅程多算几步,低意图场景快速响应。更远期,Meta希望GEM能驱动“代理式广告自动化”——广告主只需设定目标(比如ROAS>3),GEM自动优化创意、预算、定向、出价,实现“AI代运营”。



总结一下:GEM不是又一个大模型,而是Meta用LLM思维重构广告推荐系统的里程碑。它解决了传统RecSys的三大痛点:数据稀疏、模型割裂、训练低效。通过架构创新、知识迁移和系统优化,GEM已经带来了3%-5%的转化率提升,并为未来“全域智能推荐”铺平了道路。

--
GEM与transformer区别?

GEM(Generative Ads Model)并不是要取代 Transformer,而是在 Transformer 架构思想的基础上,针对广告推荐系统的特殊需求,进行了深度定制和结构性创新。两者关系类似于“通用工具”与“专业手术刀”——Transformer 是通用序列建模框架,而 GEM 是为超大规模、高稀疏性、多模态、多域广告推荐场景量身打造的专用基础模型。

下面从五个关键维度对比 GEM 与标准 Transformer 的区别:



1. 输入结构:序列与非序列特征分离处理
标准 Transformer 通常将所有输入(如词元)视为统一序列,通过位置编码和自注意力统一建模。  
而 GEM 明确区分两类输入
- 非序列特征(用户属性、广告ID、创意格式等静态特征):采用增强版 Wukong 架构,结合因子分解机(Factorization Machines)与跨层注意力,专门建模高维稀疏特征的交叉交互。
- 序列特征(用户历史行为):用金字塔并行结构(Pyramid-Parallel)处理超长行为序列(可达数千事件),避免传统 Transformer 因序列长度受限而丢失长期兴趣信号。

> 简言之:Transformer “一锅炖”,GEM “分灶炒,再合味”。



2. 注意力机制:定制化 + 交错融合
标准 Transformer 使用统一的 Multi-Head Self-Attention,对所有位置平等计算相关性。  
GEM 则引入 InterFormer 架构:  
- 在序列建模模块中使用定制化注意力(如稀疏注意力、因果掩码变体),适配用户行为的时序特性;
- 通过交错结构(Interleaving),交替执行“序列内部建模”和“序列-非序列跨特征交互”,实现细粒度融合,避免信息压缩损失;
- 每个注意力块可独立扩展深度(纵向)和宽度(横向),灵活适配不同任务复杂度。

这使得 GEM 能在保留完整用户旅程的同时,高效建模广告与行为的复杂耦合关系。



3. 多域协同 vs 单一任务建模
标准 Transformer 通常为单一任务或单一领域训练(如文本生成、图像分类)。  
GEM 天生为多域联合学习设计:
- 同时学习 Facebook、Instagram、Messenger 等平台的用户行为;
- 通过域共享 + 域特化机制,在统一表征空间中保留跨平台共性,又在预测层适配各平台独特目标(如 Instagram 重转化,Facebook Feed 重互动);
- 利用一个模型实现“跨域知识迁移”,比如用 Instagram 视频广告的高转化信号,优化 Facebook 图文广告的排序策略。

这是传统 Transformer 无法直接实现的系统级能力。



4. 训练与部署目标:服务于模型舰队,而非端到端输出
标准 Transformer 通常是端到端模型,输入直接输出预测结果(如下一个词、分类标签)。  
GEM 的核心目标是作为知识中枢,赋能数百个下游垂直模型(VM)
- 它本身不直接决定广告是否展示,而是通过知识蒸馏、表征共享、参数复用等方式,提升整个广告模型舰队的性能;
- 引入 Student Adapter、分层蒸馏等机制,解决“教师模型(GEM)与学生模型(VM)目标不一致、数据延迟”等工业级痛点;
- 其输出不仅是预测值,更是高质量嵌入、软标签、中间激活,供下游灵活使用。

因此,GEM 更像一个“AI 教练”,而不是“AI 球员”。



5. 系统与工程耦合:为千卡训练而生
标准 Transformer 实现(如原始论文版)未考虑超大规模分布式训练的系统瓶颈。  
GEM 从第一天就采用 “模型-系统协同设计”(Co-Design):
- 多维并行策略(HSDP + 2D Embedding Parallelism);
- 自研 GPU 内核处理 jagged(不规则长度)序列;
- FP8 激活压缩 + 统一嵌入格式降低显存;
- NCCLX 实现通信与计算零争抢;
- 训练-推理-知识生成资源共享,最大化 GPU 生命周期利用率。

这些工程创新让 GEM 能在数千 GPU 上高效训练,而普通 Transformer 在这种规模下往往因通信或内存瓶颈而崩溃。



总结一句话:
> Transformer 是通用序列建模的“乐高积木”,GEM 则是用这些积木搭出的一座专为广告推荐优化的“智能水电站”——不仅发电(预测),还输电(知识迁移)、调频(多域适配)、节能(系统优化)。

对于推荐系统从业者而言,GEM 的真正启示不是“用更大的 Transformer”,而是:如何围绕业务目标,重构从数据输入、模型架构到训练部署的全链路,打造端到端协同的智能基础设施。