DeepSeek+华为芯片将带火中国芯片行业

DeepSeek 可能会带火中国的芯片行业,让中国芯片进入一个超速发展时期:
DeepSeek V3 从一开始就能在华为的 昇腾 Ascend 芯片上跑推理。华为的 910C 芯片(能匹配英伟达的 H100 )既可以用来训练,也能用来推理。

英伟达厉害的地方在于它的 CUDA(软件加生态系统),华为自己维护了一个 PyTorch 的仓库,只要加一行代码,就能把 CUDA 的东西搬到自己的 CANN 上。

开发人员用起来发现:

  • 华为 昇腾  910C 的推理性能大概能达到 H100 的 60%
  • 要是再自己动手写 CANN 内核优化一下,性能还能更高。

将来可能会发生这些事:
现在 AI 模型架构越来越往 Transformer靠拢,CUDAPyTorch编译器就没那么重要了,因为工程师可以在 CANN 里自己写内核,把性能调到很高。

DeepSeek 的团队要是多在华为芯片上下功夫,就能少依赖英伟达,成本也能降下来。毕竟谁也不知道美国啥时候又出啥限制芯片出口的招。

不过训练这块还是挺难的,英伟达在这一块还是很强,因为中国芯片在长期训练的稳定性上好像还有点问题。

不过,DeepSeek R1蒸馏模型可以在配备华为芯片的华为云上运行。在华为芯片上只能跑密集蒸馏模型,而不是真正用稀疏的DeepSeek V3或者R1模型。

因为DeepSeek的部署要求很厉害,比如最低推荐的集群配置:预填充阶段要4个节点,每个节点配32个H800 GPU,解码阶段要40个节点,总共320个H800 GPU。

这些GPU在服务器里用NVLink连起来,整个集群的GPU再通过IB(InfiniBand)全互连,这得是很强的网络。

但华为的Ascend 920芯片在网络方面有点弱,所以不确定它能不能高效地跑真正的备用模型。不过也说不定,说不定他们能找到办法,毕竟Ascend芯片比英伟达H800便宜很多,说不定效率低点也能凑合用。

现在的问题是“中国能不能弄到更多HBM?”
几个月前的对HBM限制法规,把HBM卖给中国公司的路都给堵死了。要是没有HBM,想做出性能还不错的推理芯片,那可太难了。

另外一个问题是良品率:
TikTok 的中国母公司字节跳动今年订购了超过 10 万片 Ascend 910B 芯片,但截至 7 月,收到的订单不到 3 万片,速度太慢,无法满足公司的需求。消息人士称,其他向华为订购芯片的中国科技公司也抱怨了类似的问题。

华为 910C概念股
华为910C概念股主要涉及与华为昇腾910C芯片相关的产业链公司,这些公司可能在芯片的生产、封装、散热、连接器、服务器代工等方面与华为有合作。以下是一些主要的华为910C概念股:

核心供应商

  • 华丰科技:提供高速连接器,是华为高速背板连接器的国内主要供应商之一。
  • 创益通:为莫仕提供高速连接器,莫仕间接供货华为和英伟达。
  • 意华股份:主营连接器,面向数据通信和消费电子领域,是华为的主要供应商之一。
  • 华正新材:供应半导体封装材料。
  • 兴森科技:可能为昇腾910C提供载板。
  • 通富微电已经开始试生产HBM2芯片‌。根据1月26日的消息,日经新闻报道称,中国封测巨头通富微电已经正式宣布开始试生产高带宽内存(HBM2)芯片‌
  • 其他两家生产HBM2内存的中国厂商,一个是大家非常熟悉的长鑫存储(CXMT),最近刚刚推出DDR5内存,另一个就是武汉新芯(XMC)。