AI基础设施、芯片和机器人

七家中国AI芯片公司出货H100级产品完整清单

#AI基础设施 #芯片半导体 #AI投资新闻

2026-06-25 1 7K banq

别吵H20了七家中国AI芯片已经出货H100级产品

七家中国AI芯片公司已经出货H100级别产品，大多数在最近半年内上市。

过去几个月我刷到的推文都在吵同一件事：英伟达出口管制、H20配额、老黄到底还卖不卖给中国。但几乎没人问那个真正要命的问题——中国不买英伟达，他们用啥？

答案是，至少七家中国公司已经在卖AI加速卡了。当前产品线对标H100，下一代瞄准H200。大多数在过去六个月内上市。设计这些芯片的人，很多就是原来在英伟达、AMD和英特尔设计你现在正用着的那堆芯片的人。

我家楼下那台4×3090的机器，天天跑Qwen、DeepSeek和GLM。所以当这些模型正在被调优的硬件开始以这个速度迭代时，我忍不住盯上了。这张地图是我希望有人早点画给我的。

三条龙和四条蛇撑起中国AI芯片市场

中国给这个市场起了一个特别直白的名字：“三龙四蛇”。三家市值过千亿美元的大厂同时做芯片，加上四家刚上市的纯芯片设计公司。

三龙指的是华为、阿里巴巴和百度。四蛇是沐曦、摩尔线程、壁仞科技和天数智芯。每条龙都有自己的NVLink和NVSwitch替代方案，每台服务器插八张卡，集群起步就是一万张卡。

这个结构说明一件事：中国AI芯片不是零散的几个创业公司，而是一个有巨头有新贵的完整梯队。大厂负责堆规模和生态，新贵负责卷性能和上市速度。

华为昇腾用49%市场份额碾压全场

华为昇腾是中国AI芯片市场的绝对老大。2024年华为营收8620亿人民币，昇腾出货81.2万张卡，占国内165万张总供应量的49%，占全国AI加速器总供应量的42%。

昇腾910C在2025年量产约30万片，2026年计划做到60万片。910D采用5nm工艺、四die封装、支持FP8，2026年二三季度量产，直接对标H100。950PR和950DT是下一代产品，2026年全年铺开，搭载华为自研HBM（HiZQ 2.0，4TB/s带宽），彻底摆脱对SK海力士的依赖。

华为的目标是2028年达到4 ZFLOPS的FP4算力。注意一个关键点：华为是这七家里唯一刻意不兼容CUDA的厂商，他们从头到尾搭了一套自己的软件栈，而且从一开始就瞄准全球市场。

昇腾950PR据说直接干翻H200。这是厂商和行业会议的说法，我没看到独立第三方跑分。但即便如此，一个能造出对标H200芯片的公司，同时在做自己的HBM和自己的软件栈，这种打法已经不是追赶了，是在另开一条赛道。

阿里平头哥造了一台让硅谷失眠的服务器

阿里巴巴平头哥是中国第二大AI芯片供应商，约26.5万张卡，占国内供应量16%。PPU芯片96GB HBM2e，400W TDP，对标H20。平头哥的独立上市流程从2026年1月启动。

真正让我愣住的是阿里PG1服务器。十六张PG1_810E卡，每张96GB，单台机器总共1536GB显存，外加两颗Intel Xeon 8558P和2TB系统内存。这容量够你在本地跑GLM 5.x的BF16全量模型——也就是一台完全本地部署、不上云、没有遥测的完整前沿模型服务器，等于把你的Claude Code塞进一个机箱里。

背后还有阿里云撑着，中国最大云服务商。阿里这个路线跟华为完全不同：靠自家云业务吃下内部需求，再把硬件能力封装成服务器产品对外输出。你买的不只是一张卡，是一整套能直接跑模型的盒子。

百度昆仑芯专注推理赛道

百度昆仑芯排第三，约11.6万张卡，市占率7%，跟寒武纪咬得很紧。2025年百度营收185亿美元，昆仑芯M100主攻推理，已经在2026年Q1出货。M300支持训练和多模态推理，2027年见。天驰超级节点256/512支持万亿参数模型，2026年可用。

百度在考虑把昆仑芯分拆独立上市，时间窗口是2026年12月。昆仑芯的定位很清晰：不跟昇腾硬拼训练算力，而是吃推理市场。这个选择很聪明，推理市场对生态兼容性要求低，对功耗和成本敏感，国产芯片更容易切入。

沐曦用三年3800倍营收增长证明赛道有多疯

沐曦（MetaX）2025年营收16.4亿人民币，约2.3亿美元，同比增长121%，净亏损8.3亿。2025年12月17日在上交所科创板上市，股票代码688802.SS，首日暴涨693%，市值约3320亿人民币，接近470亿美元。

C600芯片144GB HBM3e，MXMACA架构，对标H200，2026年Q3量产。C700是下一代，2027年实现全中国产化生产。最惊人的数字是营收从2022年的42.6万人民币暴涨到2025年的16亿，三年翻了大约3800倍。

看看谁在操盘：CEO陈维良，AMD全球GPU架构师和SoC架构师，22年以上经验。硬件负责人彭莉，AMD中国第一位女工程师，19年以上经验。软件负责人杨建，AMD中国第一位研究员，24年以上经验。整个团队就是从AMD整套端过来的。

一家营收16亿的公司市值470亿美元，市销率接近30倍。资本市场赌的不是它现在赚多少钱，是它能不能吃掉H200替代市场。C600一旦量产，这个故事才开始真正兑现。

摩尔线程用游戏和AI两条腿走路

摩尔线程2025年营收15.05亿人民币，约2.19亿美元，同比增长243%，净亏损在收窄。2025年12月5日科创板上市，代码688795.SS，首日涨400%。

旗舰产品MTT S5000，80GB显存，1 PFLOPS AI算力，1.6 TB/s带宽，支持FP8到FP64全精度，明确支持GLM-5.x和Qwen3.5+。最特别的是它是唯一同时做游戏和AI的中国GPU厂商，DX12 Ultimate支持，国内独一份。

这招很妙。消费级GPU市场虽然卷，但能通过游戏卡摊薄研发成本，反过来给AI芯片输血。而且游戏市场对生态兼容性要求极高，能把DX12跑顺了，说明驱动团队有两把刷子。

壁仞科技烧钱速度超过赚钱速度

壁仞科技2025年营收10.3亿人民币，约1.5亿美元，同比增长207%，毛利率53.8%。2026年1月在香港上市，代码06082.HK，今年首个大型IPO，融资约6.24亿美元。

BR20X是下一代产品，2026年出，支持FP8和FP4，主攻推理优化。最吓人的数据是研发投入14.8亿，占营收的144%。这是一家赚一块钱花一块四毛四搞研发的公司，不是在吃老本，是在全力冲刺。

53.8%的毛利率在芯片行业不算高，但以它的体量能把毛利做到这个数，说明产品有定价权。港股投资者给它的估值逻辑也很清楚：不在乎现在亏多少，在乎你在新一代芯片上砸了多少钱。

天数智芯用边缘设备闷声发财

天数智芯2025年营收10.3亿人民币，约1.49亿美元，同比增长92%，GPU业务占总营收89%，同比增长150%。2026年1月8日在香港上市，估值约45亿美元，融资约4.75亿，覆盖金融、医疗、运输等340多家客户。

数据中心产品线有BiV100（32GB）、BiV150（64GB）、BiV200（80GB）和B300（144GB）。真正的杀手锏是边缘计算TY系列，130到300 TOPS的小盒子，Orin级别的性能，即插即用，价格只有英伟达边缘模块的零头。

创始人李云鹏是Oracle研发出身。为什么做边缘？因为天数智芯背后的投资人包括零售公司，它们需要大量便宜的边缘推理设备做机器人和物联网。这又是一个从真实需求倒推出来的产品策略，不是技术驱动，是市场驱动。

天数智芯的路线图直接写了目标：两年内超越英伟达Rubin。够狂，但有意思。

三个变化同时发生构成底层转移

第一，生产搬回国内。所有新一代产品——昇腾950、沐曦C600、天数智芯300系列——都在从台积电转移到中芯国际。官方说法是12nm工艺，行业会议上有人私下说实际节点远低于这个数。这种“明面上12nm，实际上不是”的表述，本身就是个信号。

第二，英伟达中国市场份额在崩。IDC数据，2025年中国市场出货约220万张GPU，这可能是英伟达最后一波大规模出货。英伟达市占率从95%掉到55%，两年跌了40个百分点。2026年6月美国试探性放松制裁，中方回应据说是：不用了，谢谢。

国产卡的数据中心利用率接近100%，新服务器排队三个月。这不是在造库存，是造多少用多少。

第三，模型在跟着硬件走。这才是对跑开源模型的人最关键的一点。中国的开源模型越来越多优先针对国产芯片优化。DeepSeek-V4推迟发布，部分原因就是它正在针对国产GPU调优。Qwen是阿里的，肯定会跟进。剩下的也会跟上。

而现在几乎所有好用的开源权重模型都是中国出的。当这些模型默认跑在国产卡上比跑在英伟达上还顺的时候，整个生态就翻过来了。

这三个变化叠加，得出一个判断：大约两年内，中国从进口AI芯片变成出口AI芯片。

我桌上那台4×3090就是这场转移的活证据

我不是搞地缘政治的账号。我关心这事纯粹因为桌子底下那台实实在在的机器。

我现在用四张RTX 3090跑中国开源模型，96GB显存，llama.cpp、vLLM、SGLang都跑得挺顺。这配置是目前最好的过渡方案——用西方硬件跑中国模型。但我跑的这些模型，正在被一群曾经在英伟达和AMD干过的人，为一批不再用英伟达的硬件做调优。

今天我可以继续用英伟达卡跑中国模型。但我的下一台机器，可能就不是英伟达了。

总之：七家中国AI芯片公司已出货H100/H200级产品，多数半年内上市。华为、阿里、百度组成巨头梯队，沐曦、摩尔线程、壁仞、天数智芯为上市新贵。英伟达中国市占率两年从95%跌到55%，国产芯片排队三个月，模型正转向国产硬件优化。

龙头股：在A股能直接买到的"真龙"

文章里提到的七家公司，有四家已经在A股上市，两家在香港上市，一家刚过会还没正式挂牌。

沐曦股份（688802.SS）和摩尔线程（688795.SS）都上了科创板。沐曦2026年一季度营收同比增长75%，摩尔线程更是直接扭亏为盈，赚了2936万——这是国产GPU公司第一次季度盈利。壁仞科技（06082.HK）和天数智芯（09903.HK）在港股，市值也都破了千亿。燧原科技刚过会，即将登陆科创板，但它有个问题：八成多收入靠腾讯一家撑着。

除了这七家，A股还有两座绕不过去的大山：寒武纪（688256）市值快9000亿，一季度净赚10亿，重新坐上A股"股王"宝座；海光信息（688041）市值7600多亿，国产CPU+DCU双线推进。

FlagOS是打破生态壁垒的关键拼图

这些国产芯片有一个"统一CUDA层"，就是智源研究院牵头搞的众智FlagOS。它已经不是什么实验室概念了，而是一套正儿八经在跑的生产级系统软件栈，目标就是让开发者"一次开发，多芯运行"。

这东西解决了国产芯片最要命的问题：每家的卡跑起来互不兼容，软件生态各自为战。FlagOS在中间搭了一层桥，上面跑模型，下面接硬件，开发者只需要对着FlagOS写代码，它自己帮你翻译给不同芯片。

这套东西现在已经能打实战了

FlagOS已经不是PPT了，它已经搞定了好几件硬核的事：

第一，多款芯片端到端训练已经跑通。 FlagOS已经在天数智芯、沐曦、寒武纪、海光、摩尔线程、昆仑芯六款国产芯片上完成了大模型端到端训练验证。在Qwen3-0.6B语言模型上，各芯片的Triton算子替换率都超过80%，训练出来的模型跟英伟达基线平台的评测偏差控制在2%以内。

第二，千卡集群训练已经突破。 在海光BW系列芯片上，FlagOS跑通了320亿参数多模态大模型的千卡训练，1024张卡的扩展效率达到99.63%。在摩尔线程MTT S5000千卡集群上，FlagOS完成了具身大脑模型RoboBrain 2.5的全流程训练，Loss曲线跟英伟达GPU基线高度一致。

第三，异构混训也能跑。 FlagOS搞定了"96台沐曦服务器+32台英伟达服务器"混搭训练，异构混合效率达到81.64%，跟纯同构集群的误差只有0.46%。这意味着企业可以按成本灵活混搭不同芯片，不用被单一供应商锁死。

第四，DeepSeek-V4发布当天就完成八款芯片适配。 2026年4月DeepSeek-V4-Flash发布当天，FlagOS就在海光、沐曦、华为昇腾、摩尔线程、昆仑芯、平头哥真武、天数、英伟达八款芯片上完成了全量适配和推理部署。注意一个细节：国内出货的AI芯片全都不支持FP4，英伟达也只有Blackwell及之后的高端芯片才支持。FlagOS用"FP4+FP8混合精度"技术，让DeepSeek-V4在国产芯片上照样跑起来了。

第五，已经上云了。 FlagOS的模型镜像已经登陆腾讯云HAI社区，开发者可以直接拉取使用。比如把Qwen3-4B镜像拉到海光加速卡上，配合OpenClaw跑QQ机器人，实现本地7×24小时的AI智能体，不需要再交Token费。

规模有多大？18家厂商32款芯片

截至目前，FlagOS已支持18家厂商的32款AI芯片。参与共建的单位包括智源研究院、清华、北大、中科院，以及华为、海光信息、沐曦股份、摩尔线程、天数智芯、寒武纪、昆仑芯等核心芯片厂商。

智源研究院副院长林咏华说了一句很实在的话："我们最大的堵点并不是造不出好芯片，而是软件栈的生态落后了很多。" FlagOS的解法就是用Triton统一编程语言写算子，由编译器翻译给各芯片，性能达到厂商原生库的83%以上。