七家中国AI芯片公司出货H100级产品完整清单

别吵H20了七家中国AI芯片已经出货H100级产品

七家中国AI芯片公司已经出货H100级别产品,大多数在最近半年内上市。

过去几个月我刷到的推文都在吵同一件事:英伟达出口管制、H20配额、老黄到底还卖不卖给中国。但几乎没人问那个真正要命的问题——中国不买英伟达,他们用啥?

答案是,至少七家中国公司已经在卖AI加速卡了。当前产品线对标H100,下一代瞄准H200。大多数在过去六个月内上市。设计这些芯片的人,很多就是原来在英伟达、AMD和英特尔设计你现在正用着的那堆芯片的人。

我家楼下那台4×3090的机器,天天跑Qwen、DeepSeek和GLM。所以当这些模型正在被调优的硬件开始以这个速度迭代时,我忍不住盯上了。这张地图是我希望有人早点画给我的。

三条龙和四条蛇撑起中国AI芯片市场

中国给这个市场起了一个特别直白的名字:“三龙四蛇”。三家市值过千亿美元的大厂同时做芯片,加上四家刚上市的纯芯片设计公司。

三龙指的是华为、阿里巴巴和百度。四蛇是沐曦、摩尔线程、壁仞科技和天数智芯。每条龙都有自己的NVLink和NVSwitch替代方案,每台服务器插八张卡,集群起步就是一万张卡。

这个结构说明一件事:中国AI芯片不是零散的几个创业公司,而是一个有巨头有新贵的完整梯队。大厂负责堆规模和生态,新贵负责卷性能和上市速度。

华为昇腾用49%市场份额碾压全场

华为昇腾是中国AI芯片市场的绝对老大。2024年华为营收8620亿人民币,昇腾出货81.2万张卡,占国内165万张总供应量的49%,占全国AI加速器总供应量的42%。

昇腾910C在2025年量产约30万片,2026年计划做到60万片。910D采用5nm工艺、四die封装、支持FP8,2026年二三季度量产,直接对标H100。950PR和950DT是下一代产品,2026年全年铺开,搭载华为自研HBM(HiZQ 2.0,4TB/s带宽),彻底摆脱对SK海力士的依赖。

华为的目标是2028年达到4 ZFLOPS的FP4算力。注意一个关键点:华为是这七家里唯一刻意不兼容CUDA的厂商,他们从头到尾搭了一套自己的软件栈,而且从一开始就瞄准全球市场。

昇腾950PR据说直接干翻H200。这是厂商和行业会议的说法,我没看到独立第三方跑分。但即便如此,一个能造出对标H200芯片的公司,同时在做自己的HBM和自己的软件栈,这种打法已经不是追赶了,是在另开一条赛道。

阿里平头哥造了一台让硅谷失眠的服务器

阿里巴巴平头哥是中国第二大AI芯片供应商,约26.5万张卡,占国内供应量16%。PPU芯片96GB HBM2e,400W TDP,对标H20。平头哥的独立上市流程从2026年1月启动。

真正让我愣住的是阿里PG1服务器。十六张PG1_810E卡,每张96GB,单台机器总共1536GB显存,外加两颗Intel Xeon 8558P和2TB系统内存。这容量够你在本地跑GLM 5.x的BF16全量模型——也就是一台完全本地部署、不上云、没有遥测的完整前沿模型服务器,等于把你的Claude Code塞进一个机箱里。

背后还有阿里云撑着,中国最大云服务商。阿里这个路线跟华为完全不同:靠自家云业务吃下内部需求,再把硬件能力封装成服务器产品对外输出。你买的不只是一张卡,是一整套能直接跑模型的盒子。

百度昆仑芯专注推理赛道

百度昆仑芯排第三,约11.6万张卡,市占率7%,跟寒武纪咬得很紧。2025年百度营收185亿美元,昆仑芯M100主攻推理,已经在2026年Q1出货。M300支持训练和多模态推理,2027年见。天驰超级节点256/512支持万亿参数模型,2026年可用。

百度在考虑把昆仑芯分拆独立上市,时间窗口是2026年12月。昆仑芯的定位很清晰:不跟昇腾硬拼训练算力,而是吃推理市场。这个选择很聪明,推理市场对生态兼容性要求低,对功耗和成本敏感,国产芯片更容易切入。

沐曦用三年3800倍营收增长证明赛道有多疯

沐曦(MetaX)2025年营收16.4亿人民币,约2.3亿美元,同比增长121%,净亏损8.3亿。2025年12月17日在上交所科创板上市,股票代码688802.SS,首日暴涨693%,市值约3320亿人民币,接近470亿美元。

C600芯片144GB HBM3e,MXMACA架构,对标H200,2026年Q3量产。C700是下一代,2027年实现全中国产化生产。最惊人的数字是营收从2022年的42.6万人民币暴涨到2025年的16亿,三年翻了大约3800倍。

看看谁在操盘:CEO陈维良,AMD全球GPU架构师和SoC架构师,22年以上经验。硬件负责人彭莉,AMD中国第一位女工程师,19年以上经验。软件负责人杨建,AMD中国第一位研究员,24年以上经验。整个团队就是从AMD整套端过来的。

一家营收16亿的公司市值470亿美元,市销率接近30倍。资本市场赌的不是它现在赚多少钱,是它能不能吃掉H200替代市场。C600一旦量产,这个故事才开始真正兑现。

摩尔线程用游戏和AI两条腿走路

摩尔线程2025年营收15.05亿人民币,约2.19亿美元,同比增长243%,净亏损在收窄。2025年12月5日科创板上市,代码688795.SS,首日涨400%。

旗舰产品MTT S5000,80GB显存,1 PFLOPS AI算力,1.6 TB/s带宽,支持FP8到FP64全精度,明确支持GLM-5.x和Qwen3.5+。最特别的是它是唯一同时做游戏和AI的中国GPU厂商,DX12 Ultimate支持,国内独一份。

这招很妙。消费级GPU市场虽然卷,但能通过游戏卡摊薄研发成本,反过来给AI芯片输血。而且游戏市场对生态兼容性要求极高,能把DX12跑顺了,说明驱动团队有两把刷子。

壁仞科技烧钱速度超过赚钱速度

壁仞科技2025年营收10.3亿人民币,约1.5亿美元,同比增长207%,毛利率53.8%。2026年1月在香港上市,代码06082.HK,今年首个大型IPO,融资约6.24亿美元。

BR20X是下一代产品,2026年出,支持FP8和FP4,主攻推理优化。最吓人的数据是研发投入14.8亿,占营收的144%。这是一家赚一块钱花一块四毛四搞研发的公司,不是在吃老本,是在全力冲刺。

53.8%的毛利率在芯片行业不算高,但以它的体量能把毛利做到这个数,说明产品有定价权。港股投资者给它的估值逻辑也很清楚:不在乎现在亏多少,在乎你在新一代芯片上砸了多少钱。

天数智芯用边缘设备闷声发财

天数智芯2025年营收10.3亿人民币,约1.49亿美元,同比增长92%,GPU业务占总营收89%,同比增长150%。2026年1月8日在香港上市,估值约45亿美元,融资约4.75亿,覆盖金融、医疗、运输等340多家客户。

数据中心产品线有BiV100(32GB)、BiV150(64GB)、BiV200(80GB)和B300(144GB)。真正的杀手锏是边缘计算TY系列,130到300 TOPS的小盒子,Orin级别的性能,即插即用,价格只有英伟达边缘模块的零头。

创始人李云鹏是Oracle研发出身。为什么做边缘?因为天数智芯背后的投资人包括零售公司,它们需要大量便宜的边缘推理设备做机器人和物联网。这又是一个从真实需求倒推出来的产品策略,不是技术驱动,是市场驱动。

天数智芯的路线图直接写了目标:两年内超越英伟达Rubin。够狂,但有意思。

三个变化同时发生构成底层转移

第一,生产搬回国内。所有新一代产品——昇腾950、沐曦C600、天数智芯300系列——都在从台积电转移到中芯国际。官方说法是12nm工艺,行业会议上有人私下说实际节点远低于这个数。这种“明面上12nm,实际上不是”的表述,本身就是个信号。

第二,英伟达中国市场份额在崩。IDC数据,2025年中国市场出货约220万张GPU,这可能是英伟达最后一波大规模出货。英伟达市占率从95%掉到55%,两年跌了40个百分点。2026年6月美国试探性放松制裁,中方回应据说是:不用了,谢谢。

国产卡的数据中心利用率接近100%,新服务器排队三个月。这不是在造库存,是造多少用多少。

第三,模型在跟着硬件走。这才是对跑开源模型的人最关键的一点。中国的开源模型越来越多优先针对国产芯片优化。DeepSeek-V4推迟发布,部分原因就是它正在针对国产GPU调优。Qwen是阿里的,肯定会跟进。剩下的也会跟上。

而现在几乎所有好用的开源权重模型都是中国出的。当这些模型默认跑在国产卡上比跑在英伟达上还顺的时候,整个生态就翻过来了。

这三个变化叠加,得出一个判断:大约两年内,中国从进口AI芯片变成出口AI芯片。

我桌上那台4×3090就是这场转移的活证据

我不是搞地缘政治的账号。我关心这事纯粹因为桌子底下那台实实在在的机器。

我现在用四张RTX 3090跑中国开源模型,96GB显存,llama.cpp、vLLM、SGLang都跑得挺顺。这配置是目前最好的过渡方案——用西方硬件跑中国模型。但我跑的这些模型,正在被一群曾经在英伟达和AMD干过的人,为一批不再用英伟达的硬件做调优。

今天我可以继续用英伟达卡跑中国模型。但我的下一台机器,可能就不是英伟达了。

总之:七家中国AI芯片公司已出货H100/H200级产品,多数半年内上市。华为、阿里、百度组成巨头梯队,沐曦、摩尔线程、壁仞、天数智芯为上市新贵。英伟达中国市占率两年从95%跌到55%,国产芯片排队三个月,模型正转向国产硬件优化。

龙头股:在A股能直接买到的"真龙"

文章里提到的七家公司,有四家已经在A股上市,两家在香港上市,一家刚过会还没正式挂牌。

沐曦股份(688802.SS)和摩尔线程(688795.SS)都上了科创板。沐曦2026年一季度营收同比增长75%,摩尔线程更是直接扭亏为盈,赚了2936万——这是国产GPU公司第一次季度盈利。壁仞科技(06082.HK)和天数智芯(09903.HK)在港股,市值也都破了千亿。燧原科技刚过会,即将登陆科创板,但它有个问题:八成多收入靠腾讯一家撑着。

除了这七家,A股还有两座绕不过去的大山:寒武纪(688256)市值快9000亿,一季度净赚10亿,重新坐上A股"股王"宝座;海光信息(688041)市值7600多亿,国产CPU+DCU双线推进。


FlagOS是打破生态壁垒的关键拼图

这些国产芯片有一个"统一CUDA层",就是智源研究院牵头搞的众智FlagOS。它已经不是什么实验室概念了,而是一套正儿八经在跑的生产级系统软件栈,目标就是让开发者"一次开发,多芯运行"。

这东西解决了国产芯片最要命的问题:每家的卡跑起来互不兼容,软件生态各自为战。FlagOS在中间搭了一层桥,上面跑模型,下面接硬件,开发者只需要对着FlagOS写代码,它自己帮你翻译给不同芯片。

这套东西现在已经能打实战了

FlagOS已经不是PPT了,它已经搞定了好几件硬核的事:

第一,多款芯片端到端训练已经跑通。 FlagOS已经在天数智芯、沐曦、寒武纪、海光、摩尔线程、昆仑芯六款国产芯片上完成了大模型端到端训练验证。在Qwen3-0.6B语言模型上,各芯片的Triton算子替换率都超过80%,训练出来的模型跟英伟达基线平台的评测偏差控制在2%以内。

第二,千卡集群训练已经突破。 在海光BW系列芯片上,FlagOS跑通了320亿参数多模态大模型的千卡训练,1024张卡的扩展效率达到99.63%。在摩尔线程MTT S5000千卡集群上,FlagOS完成了具身大脑模型RoboBrain 2.5的全流程训练,Loss曲线跟英伟达GPU基线高度一致。

第三,异构混训也能跑。 FlagOS搞定了"96台沐曦服务器+32台英伟达服务器"混搭训练,异构混合效率达到81.64%,跟纯同构集群的误差只有0.46%。这意味着企业可以按成本灵活混搭不同芯片,不用被单一供应商锁死。

第四,DeepSeek-V4发布当天就完成八款芯片适配。 2026年4月DeepSeek-V4-Flash发布当天,FlagOS就在海光、沐曦、华为昇腾、摩尔线程、昆仑芯、平头哥真武、天数、英伟达八款芯片上完成了全量适配和推理部署。注意一个细节:国内出货的AI芯片全都不支持FP4,英伟达也只有Blackwell及之后的高端芯片才支持。FlagOS用"FP4+FP8混合精度"技术,让DeepSeek-V4在国产芯片上照样跑起来了。

第五,已经上云了。 FlagOS的模型镜像已经登陆腾讯云HAI社区,开发者可以直接拉取使用。比如把Qwen3-4B镜像拉到海光加速卡上,配合OpenClaw跑QQ机器人,实现本地7×24小时的AI智能体,不需要再交Token费。

规模有多大?18家厂商32款芯片

截至目前,FlagOS已支持18家厂商的32款AI芯片。参与共建的单位包括智源研究院、清华、北大、中科院,以及华为、海光信息、沐曦股份、摩尔线程、天数智芯、寒武纪、昆仑芯等核心芯片厂商。

智源研究院副院长林咏华说了一句很实在的话:"我们最大的堵点并不是造不出好芯片,而是软件栈的生态落后了很多。" FlagOS的解法就是用Triton统一编程语言写算子,由编译器翻译给各芯片,性能达到厂商原生库的83%以上。