这周,PCI-SIG(Peripheral Component Interconnect Special Interest Group,简称“外设互联兴趣小组”,但听起来像“外设带宽传销组织”)又召开了一场“未来展望会”,宣布了一个惊天动地的消息:我们不会停下来,我们还要继续“提速”!
目标?2028年发布PCIe 8.0,带宽直接在PCIe 7.0基础上翻倍!
是的,你没听错,又翻倍。这已经不是技术进步了,这是带宽界的“复利投资”——每三年翻一倍,比某些P2P理财还狠。
PCI-SIG仿佛在说:“我们不是在做标准,我们是在搞带宽通货膨胀。”
问题是,谁在用?谁在追?谁在为这堆“未来带宽”提前还贷?别急,咱们慢慢扒,从PCO的“祖宗三代”开始,看看这场算力荒诞剧是怎么一步步演变成AI时代的“带宽军备竞赛”的。
【节二:I/O带宽的“摩尔定律”?每三年翻一番,比手机更新还勤快】
PCI-SIG这次发布了一张“神图”,声称I/O带宽每三年翻一番。听起来很牛,但细想一下,这不就是把摩尔定律从晶体管数量挪到了带宽上吗?只不过,摩尔定律现在早“病危”了,而PCI-SIG却把它“复活”成了“带宽定律”。问题是,处理器没跟上,内存没跟上,硬盘读写速度也没跟上,就I/O带宽自己在赛博空间里狂奔。
这就像你给一辆自行车装上了F1引擎,结果发现轮胎还是塑料的,刹车靠意念。
早年PCO(Parallel Computing Organization,此处为虚构调侃)第一代应用还在用PCIe 3.0跑Hadoop批处理,那时候16GB/s的带宽已经算“高速路”,结果现在PCIe 8.0要冲1TB/s——相当于从自行车道直接升级成量子传送带。
问题是,数据从哪来?往哪去?难道AI训练真要把整个互联网压缩成0和1塞进显卡?
【节三:系统级带宽的“复合增长”——不是翻倍,是“指数级膨胀”】
更离谱的是,PCI-SIG还提醒我们:这还只是单链路速度。
从系统角度看,CPU的控制器数量、可用的PCIe通道数(lanes)也在同步增加。
也就是说,带宽增长不是线性的,是“复合增长”——速度翻倍,通道还变多,整体I/O吞吐量简直是“核爆式”增长。
举个例子,早年PCO第二代应用跑深度学习时,一张A100显卡用PCIe 4.0 x16,带宽才64GB/s,就已经让数据科学家觉得“够用了”。
结果现在PCIe 8.0 x16要上1TB/s,相当于把整条长江的水塞进一根水管里一秒钟冲完。
问题是,GPU内部算力都还没消化完上一代的数据,新数据又来了?这不叫“高速互联”,这叫“数据催吐机”。AI训练不是在“学习”,是在“暴饮暴食”。
【节四:那张“人手必备”的带宽对照表——从祖传PCIe 1.0到2028年的“科幻带宽”】
这次PCI-SIG还贴心地发布了一张“带宽对照表”,堪称IT民工的“圣经”。
从PCIe 1.0的可怜兮兮2.5GT/s,到PCIe 8.0的恐怖48GT/s,x16插槽直接飙到1TB/s。这张表不仅回顾了“祖宗十八代”,还展望了“孙子辈”的技术蓝图。
问题是,谁会真的用到PCIe 8.0?
现在市面上大多数服务器还在用PCIe 5.0,高端一点的开始上PCIe 6.0,比如NVIDIA的ConnectX-8网卡和B300系列GPU——这些产品刚上市,就被宣布“即将过时”。
这就像你刚买了iPhone 15,苹果就说2028年要出脑机接口版iPhone 20,还附赠一张“未来性能对比图”。
技术演进不是为了满足需求,而是为了制造焦虑。
PCO第三代应用已经开始玩“多GPU超算集群”,结果发现瓶颈不在算力,而在数据搬运——于是PCI-SIG说:“别怕,我们给你更快的路!”可问题是,路修得再快,车(数据)还是那辆车,只是司机(AI模型)越来越胖。
【节五:AI算力狂潮下的“带宽军备竞赛”——我们不是在升级,我们是在赛跑】
为什么PCI-SIG这么拼?因为AI。
现在的AI训练动辄千亿参数,万亿token,数据量大到连SSD都“喘不过气”。
于是整个行业陷入一种诡异的逻辑:算力不够?加GPU!GPU多了数据搬不动?加带宽!带宽高了延迟高?再加!这就像一群人在跑步机上狂奔,以为自己在前进,其实原地踏步。
PCO当年搞第一代AI应用时,还在为PCIe 3.0的延迟发愁;现在搞第八代,却发现带宽再高也救不了“数据饥饿”的GPU。
NVIDIA的NVLink、AMD的Infinity Fabric,本质上都是在“绕开PCIe”,因为PCIe再快,也快不过片内互联。
可PCI-SIG偏不信邪,坚持要“把外设总线干成主干道”。这就像城市交通堵了,政府不修地铁,非要拓宽自行车道。
【节六:2028年的“带宽乌托邦”——谁在做梦,谁在买单?】
最后回到那个问题:PCIe 8.0真的需要吗?
2028年,我们真的会用上1TB/s的PCIe带宽吗?也许会,但只在极少数AI超算中心、量子模拟实验室,或者某些“训练AI写诗”的神秘项目里。
对大多数企业来说,PCIe 5.0甚至4.0都还没吃透。可技术发展的荒诞之处就在于:你不跟进,就被淘汰;你跟进,又用不上。
PCO的“三代应用”见证了从Hadoop到Transformer的跨越,也见证了从“够用就好”到“带宽过剩”的疯狂。
现在我们不是在解决实际问题,而是在为“未来可能的需求”提前烧钱。PCI-SIG的愿景很美好,但现实很骨感——带宽翻倍容易,生态跟上难。驱动支持、主板设计、散热、功耗、信号完整性……每一步都是坑。
PCIe 8.0一出,芯片厂笑出猪叫,PCB厂哭出狗叫
PCIe 8.0宣布2028年上线,带宽飙到1TB/s(x16),信号速率48 GT/s——这数字听着就让人头皮发麻。对GPU、AI加速器、高端网卡这些“P”类玩家,简直是天降甘霖。NVIDIA、AMD、Intel这些“P”字头公司立马能吹:“我们下一代B2000、X9000、i9-999K全面支持PCIe 8.0,算力翻倍,延迟归零,AI训练快如闪电!”
可谁来为这“快如闪电”买单?是PCB。
因为信号速率越高,对PCB的要求就越变态。48 GT/s意味着信号波长极短,任何微小的阻抗不匹配、材料不均、走线弯曲,都会让数据“在路上猝死”。以前PCB用FR-4材料还能凑合,现在?得上M6/M7级高频材料(比如Rogers、Tachyon),成本翻三倍不止。而且层数得从12层干到24层,甚至32层,散热、串扰、电源完整性全得重新设计。
到了PCIe 8.0时代,PCB不再是“电路板”,而是“精密仪器”。一块高端AI主板的PCB成本可能比GPU还贵——这不是夸张,是正在发生的现实。Intel的Sapphire Rapids、NVIDIA的GH100,PCB成本占比早已突破30%。
当芯片性能逼近物理极限,真正的瓶颈不再是算力,而是互连、供电、散热、PCB
极客辣评
我们什么时候应该把架构翻转过来,让 GPU PCB 成为主板,CPU/内存放在 PCIe 插槽上?这样似乎也会在供电方面带来一些优势。
实际上,RapsberryPi(出现于 2012 年)是基于 SoC 的,它拥有强大的 GPU 和支持能力较弱的小型 CPU。主板会先启动 GPU。
如果你看一下任何一款 nvidia DGX 主板,它已经非常接近了。
PCIe 是一个标准/商品,因此多家供应商可以参与竞争,客户可以节省成本。但就 8.0 的速度而言,我不确定有多少供应商会真正供应,目前只有少数几家供应商能提供如此快……
当前超算就像用胶水把成千上万个「CPU+GPU乐高积木」粘在一起,每个积木内部有高速通道(NVLink),但积木之间却依赖缓慢的网络(InfiniBand)
GPU自治背板方案:
每个GPU配一个「迷你CPU管家」(比如ARM核/FPGA),负责本地调度和VRAM管理
这些管家通过光信号NVLink直接对话(类似CXL over Optical)
操作系统看到的是一块「虚拟巨无霸GPU」,实际工作被原子化拆解到物理GPU集群
为什么还没人做:
性价比问题:需要重写整个软件栈(CUDA生态会造反)
热密度恐怖:1U塞16个GPU还要保证自治通信?液冷厂商笑醒
但...这恰恰是 Cerebras 晶圆级芯片已经在CPU领域做到的事,只是还没人敢在GPU上发疯
内存应该作为CPU卡上的板载模块,英特尔/AMD应该效仿苹果的做法,采用统一的环形总线类型的内存模块。延迟更低,吞吐量更高。
性能会进一步提升。虽然像英特尔这样的公司会榨干消费者的利润,但一款搭载 16GB 板载内存的 i5 或类似型号的 CPU 的价格,相比于你额外购买内存的价格,可能高得离谱。