Apple M5 可能会放弃统一内存架构

Apple M5 Pro、Max 和 Ultra 可能会放弃备受吹捧的统一内存架构,转而采用台积电 N3E 上制造的分离式 CPU 和 GPU 设计。

高端 M5 SoC(如 M5 Pro、M5 Max 和 M5 Ultra)将采用台积电的 2.5D SoIC-mH 封装,并采用独立的 CPU 和 GPU 设计,不使用统一内存架构。

苹果最近才发布了搭载M4 Pro和M4 Max SoC 的新款 MacBookPro 14和MacBook Pro 16,但我们已经开始了解明年的后续 M5 系列将会带来什么。

M5 系列包括基础版 M5、M5 Pro、M5 Max 和 M5 Ultra,均采用台积电的 N3P 节点制造,该节点几个月前已完成原型设计。最新款 Mac 使用的 M4 系列和iPhone 16系列使用的A18 / A18 Pro均采用台积电的 N3E 工艺制造,而 N3E 工艺本身是对A17 Pro所采用的N3B 工艺的改进。

M5 系列将于 2025 年上半年和 2025 年下半年投入生产,M5 Ultra 将于 2026 年开始生产。

M5 Pro、Max 和 Ultra 芯片将采用服务器级 2.5D TSMC 封装,称为系统级集成芯片成型水平 (SoIC-mH)。SoIC-mH 使 Apple 能够分离 CPU 和 GPU 设计,同时提高产量和散热性能。

亮点:
SoIC-mH 是 2.5D 技术,这可能意味着 3D 堆栈通过 CoWoS 或 InFO 封装水平粘合。SoIC- X 是无凸块的,而 SoIC-P 是凸块封装,允许 N3 晶圆以正面对背面 (F2B) 的方向堆叠在 N4 或更高芯片的顶部。

独立的 CPU 和 GPU 设计,这实际上意味着 M5 将不会使用 CPU 和 GPU 之间共享的统一内存架构 (UMA)。UMA 一直是 Apple 芯片的标志,也是其性能和能效的主要原因之一。这种新的分离设计是否真的能转化为现实世界的性能提升,而不会导致 TDP 的相应增加。

这种分体式设计可能有助于提高人工智能推理能力。因此,苹果的私有云计算 (PCC)很可能成为高端 M5 设计的最大受益者。

网友1:
这不是分割统一内存,而是将 soc 分割成 sip。ram 仍然在同一个中介层/基板上。实际的 mm 距离不会退化为 dimm 插槽到 cpu 插槽的距离。
软件仍然会看到一个内存池,我知道我不同意这篇文章。

SOC(System on Chip,系统级芯片)和SIP(System in Package,系统级封装)是两种不同的集成电路技术

  • SOC是一种将所有必要的计算机组件集成到单一芯片上的技术,它追求高度集成化和定制化,适用于特定应用的优化解决方案。SOC因为高度集成化而具备较高的性能效率,组件之间的通信路径更短,能够达到更高的运行速度和更低的延迟,适合智能手机、平板电脑和其他嵌入式系统
  • SIP则是一种模块化的封装技术,它将不同工艺下制造的芯片集成在一起,允许多个异构芯片在同一个封装中协同工作,更注重灵活性和快速开发。通过多层封装技术,也能将不同芯片紧凑地封装在一起,在体积上比传统的多芯片解决方案更小。适合AI眼镜 、智能手表、可穿戴设备等。

网友2:

  • 英特尔正在推出统一内存处理器,其 CPU 核心和 GPU 核心位于不同的芯片上,但仍共享相同的内存控制器(在第三个芯片上,用于 Meteor Lake 和 Arrow Lake)。
  • AMD 即将推出 Strix Halo,这是一款高端移动处理器,据传由一个或两个 CPU 芯片和一个带有大 GPU 和 256 位内存控制器的 IO 芯片组成。

网友3:

  • 也许苹果已经找到了比统一内存架构更好的方法。很难排除他们制造出具有重大突破的硅片的能力。
苹果自己已经在 M Ultras 上实现了这一点 - 这是两个粘合在一起的芯片,每个芯片仅直接连接到系统内存的一半,但它仍然表现得像统一内存,即使一半的内存流量必须通过另一个芯片进行路由。

网友4:

  • 文章中没有提到,但这背后的另一个动机可能是,通过拆分 CPU/GPU,苹果可以在购买 Mac 时尝试对两者都进行加价销售。

网友5:

  • UMA 对 GPU 的伤害太大了。广泛并行处理需要比 CPU 更大块地访问内存。如果你尝试混合访问和修改,就会失去广泛并行处理的好处。其他 GPU 设计师已经考虑并放弃了统一内存模型,为此投入了数亿美元的研究资金。

网友6:
HBM 和 CPO 解决的是高性能系统中两个不同的瓶颈:

  1. HBM 提升的是处理器(CPU/GPU)内部的内存带宽。HBM 专注于提升本地内存带宽。能够提供数百 GB/s 的带宽
  2. CPO 提升的是处理器与其他节点(其他处理器、存储、网络)的通信带宽。CPO 专注于提升节点间的通信带宽。可实现上 TB/s 的数据传输。
大规模 AI 模型训练需要高内存带宽(HBM)和高速分布式通信(CPO)。

硅光技术支持高速光通信,当前商用设备的传输速率可达 400 Gbps,未来可扩展到 800 Gbps 或更高。CPO 的光通信部分通常基于硅光技术构建,包括光调制器、探测器和波导。