一块价值十几万的顶级GPU,其实可以同时租给好几个人用!微软Azure、亚马逊AWS、谷歌云这些巨头早就这么干了,还赚得盆满钵满。这个被市场严重低估的“GPU分片”技术——它不仅是技术突破,更是云计算厂商的印钞机!
先说结论:随着GPU越来越强、显存越来越大(比如英伟达即将发布的GB300和Rubin架构),加上模型越来越小、精度压缩到FP4,越来越多AI推理任务根本用不满一块GPU。这时候,把一块GPU切成几份卖,就成了提升利用率和收入的黄金杠杆。而像Jim Chanos这样的投资人,可能根本没意识到这背后巨大的经济价值。
那具体怎么切?三大云厂商现在主要靠三种机制,各有千秋:
第一种叫GPU-P,也就是基于SR-IOV的虚拟化分区。简单说,就是通过硬件虚拟化技术,把一块物理GPU在PCIe层面拆成多个“虚拟设备”,每个客户分到一个,有独立的显存和计算单元上限。微软Azure的NVads A10 v5实例就是典型代表,最小能卖到1/6块A10 GPU,而且性能稳定、隔离性强,连虚拟机热迁移都支持。这种方案特别适合图形渲染、VDI桌面云,以及中小规模的AI推理任务。最关键的是——它有硬件级安全隔离,一个租户崩了,不会影响别人的数据。
第二种更硬核,叫MIG(多实例GPU),这是英伟达从Ampere架构(比如A100)开始引入的黑科技。MIG不是软件切分,而是直接在芯片层面把流处理器、L2缓存、内存控制器、HBM显存全部物理隔离!一块80GB的H100最多能切成7个独立实例,比如“1g.10gb”这种规格,每个实例都像一台独立小GPU,延迟和带宽几乎不受邻居干扰。这是目前业界最强的QoS保障,专为多租户云环境设计。
不过缺点也很明显:切完之后,GPU之间不能走NVLink高速互联,所以不适合大模型训练,但做并发推理、微调、图像生成、实时转码?简直完美!谷歌云已经在GKE上全面支持A100/H100/H200/B200的MIG,客户可以一个容器用一个“小GPU”。
第三种最轻量,叫时间切片或CUDA MPS(多进程服务),本质上是靠调度器轮流分配GPU时间片。这种方式打包密度最高,成本最低,但隔离性最差——一个租户跑满,其他人就卡成PPT。所以云厂商一般只允许同一个客户在自己的K8s集群里用它来“压榨”GPU,绝不对外租给不同客户。否则,万一隔壁跑了个病毒模型,你的医疗AI推理就可能延迟爆炸。
那么问题来了:云厂商真的在对外卖“碎片GPU”吗?答案是:早就在卖了!
Azure几年前就开始推“部分GPU”实例;2025年7月,AWS正式上线G6f实例,基于L4 GPU,直接提供1/2、1/4、1/8三种规格,明明白白写在官网——你买1/8,别人也能同时用剩下的7/8。谷歌虽然VM层面保守些,但在容器服务里大力推MIG。
三大巨头已经全面拥抱“一块GPU多人用”的新模式。
安全合规方面,GPU-P和MIG都经得起审计。GPU-P靠SR-IOV硬件隔离+虚拟机vTPM+可信启动,很多企业安全团队已经认可;MIG则从缓存到显存全隔离,几乎杜绝了跨租户数据泄露或拒绝服务攻击。
过去两年确实爆出过GPU漏洞,比如“LeftoverLocals”能让非英伟达GPU泄露内存,还有“NVIDIAScape”(CVE-2025-23266)导致容器逃逸——这些反而加速了厂商转向硬件隔离方案。更别说英伟达Hopper架构还支持“机密计算”,CPU+GPU全程加密+远程证明,连金融、医疗这类敏感客户都敢上多租户GPU了。
当然,不是谁都能随便切。英伟达的企业级vGPU软件是要付费授权的,消费级显卡(比如GeForce)合同上明文禁止用于数据中心。所以想合法分片,必须用A系列、L系列、H/B系列这些数据中心卡,还得交软件许可费。这部分成本虽小,但成了英伟达的“护城河”——既收硬件钱,又收软件年费。AMD也没闲着,MI300系列原生支持SR-IOV,理论上也能做类似GPU-P的分片,但软件生态和安全补丁速度仍是挑战。
从经济账看,分片简直是暴利杠杆。假设一块GPU整租30美元/小时,平均只用50%时间,日收入才360美元。但如果切成7份,每份5美元/小时,每份占用率85%,日收入直接飙到714美元,涨幅98%!就算打八折卖(4美元/小时,70%占用),也能赚470美元,多赚31%。
关键在于:分片能吃掉那些“用不满一块GPU”的长尾客户——比如跑7B~13B小模型的创业公司、做AI绘图的设计师、搞实时视频分析的安防企业。他们本来根本不会租整卡,现在花小钱就能上车,云厂商的GPU利用率也从40%~60%拉到80%以上。
当然也有代价:虚拟化带来一点CPU开销、MIG配置复杂、支持成本略高。但比起动辄几十万一块的GPU,这些成本微不足道。所以AWS才急着推G6f——就是为了吃下这块“增量蛋糕”。
对投资者来说,这事影响深远。对亚马逊、微软、谷歌,GPU分片意味着每块卡能多赚30%~100%收入,还能吸引新客户,提升资本回报率。短期可能蚕食整卡销售,但训练需求依然紧缺,分片主要打开的是推理新市场。
对英伟达,MIG和vGPU授权锁死了软件收入,Hopper/Blackwell的机密计算又扫清了合规障碍,护城河更深。对AMD,如果SR-IOV和ROCm生态能稳住,就有机会抢下部分推理份额。而那些独立GPU云厂商?压力山大——巨头亲自下场卖碎片,价格战一打,只能靠网络、存储或垂直软件突围。
最后提醒:安全永远是达摩克利斯之剑。GPU驱动、容器运行时的漏洞会不断出现,谁能快速打补丁+上机密计算,谁就能拿下高净值客户。未来12~24个月,盯紧三个指标:碎片GPU销售占比、单片定价 vs 整卡折算价、H100/H200/B200机密模式在金融/医疗客户的渗透率——这些才是真金白银落地的关键。
所以别再以为GPU只能整块租了!技术+经济双重驱动下,“一块GPU多人共享”早已不是纸上谈兵,而是云厂商的标配打法。而看懂这波趋势的人,或许已经悄悄调整了投资组合。
【作者背景】
本文作者深耕人工智能与云计算基础设施领域多年,曾任职于纽约对冲基金并担任投资组合经理,兼具技术理解力与资本市场视角,长期关注AI算力经济、芯片架构演进与云服务商业模式创新。