算力又过剩了吗?显卡短缺就是个笑话


显卡短缺就是个笑话。

Deepseek v3作为第一梯队模型,只用了2048张H800显卡,2个月不到时间训练完毕。计算预算只有不到600万美元。 最顶尖的模型2048卡就可以完成训练了。

英伟达的显卡真的短缺吗?

网友讨论:
1、取巧不意味着其他技术路线做的扎实一无是处。尤其是目前MoE和Dense两个架构百花齐放的年代。

Deepseek 他家2000卡集群训出来模型看起来效果很好。其他公司有的号称万卡集群的。 市面上那么多公司,有手握几十万张H100的,主要是用于推理而不是训练吗?

MoE的训练和Dense训练完全是两个概念,而且前期llama405b的oa带来了完全合成高质量数据的可能,从而实现llm(大模型)自我左脚踩右脚提升的可能,ReFT这些技术为test time scaling(训练时间扩展) 奠定了基础。

所以训练新模型就是越来越便宜的?那这个行业变成了一个后发优势行业了啊。

后发优势很难取得Frontier Foundation Model用于内部训练一个SOTA Student Model(即性能较优,推理成本合理)

先发者可以收获更多用户,获得用户反馈,从而形成数据飞轮从而蒸馏对么?不少投资人和分析师说大模型的数据飞轮效应不明显。

llms大模型现在发展已经过了需要人参与的阶段了,现在就是自己左脚踩右脚。(数据飞轮)。

当然,左脚踩右脚只在涉及到推理、规划等任务上提升比较明显

2、你要结合V3本身的论文看,V3的训练开销略大于llama3.3 70b,训练的14.7T tokens都是所谓高质量(很明显就是合成数据为主)。

v3激活参数37B,训练开销大概等于实际激活参数的2倍的dense model。这个规律还是大致符合的。


3、只能说明这个模型设计的好,脑子快不快没关系,我的集显5年也能训练完,只要200美元

4、今天我注册并尝试使用了几小时的 Deepseek v3,结果完全不如预期。看来所谓的高排名数据实在不可信,被误导了才决定试用。

5、DeepSeek-V3 使用 FP8 训练。与 FP16 相比,FP8 减少了内存使用量,提高了速度,是更快训练和推理的理想选择。不过,它可能会降低模型的准确性,因此如何取舍取决于使用情况。

6、提供高并发低延迟的大模型推理服务需要的卡数远多于训练的卡数:训练过程比ChatGPT快15倍的ChatLLaMA

7、研发阶段才是算力开销的大头,需要进行大量实验来试错,但只有一个实验能训练出最终模型

8、不用懂技术,不用懂AI,不用懂大模型,懂国人就行

9、模型强不强要以实际体验为准, 亲测Deepseek很智障。

10、deepseek这种都是纸面数据好,实际性能是到不了顶尖圈层的

11、中国股市中人们对量化非常敌视,认为他们没有做出有益国家的事情,现在量化代表幻方推出中国最强DeepSeek-V3了

12、第一梯队只有 openai gemini claude,它哪算第一梯队?算中国第一梯队,中国第一梯队经常被美国傻子当成第一对手。

13、ds在性价比方面做得很好

14、在优化算法和突破限制方面,中国人真的是无敌的

15、我最多只用了两个月就学会了微积分。真的需要牛顿或莱布尼兹这样的天才来发明微积分吗?

16、这有点像吃第三个馒头就饱了。问题是前面的第一个第二个都没吃饱。训练模型需要设计和微调试错。可不是给显卡一个模型就练出来的事。可能这前面不知道训练了多少次了。可能本来一个星期的事现在得两个月,那训练十次的话,再结合其他竞品的速度。这不是黄花菜都凉了。

这次训练是成功的 但,你可能需要尝试很多次,才能换来这次的成功 同时,你也不知道你的对手是否会更成功

17、他是建立在开源llm的基础上修改出的模型。 需要算力的是llm模型的研发。

18、一个公司就训练一个模型?训练一次就能达到预期效果?以后都不更新模型了?训练完模型之后,调用的时候直接就用了?在用户本地电脑跑起来吗?

19、你问chatgpt问题,它在往外喷字的过程中(不管是几秒还是几十秒),那段时间基本上就是你在独占一张H800。

20、假设你的估算是正确 但你忽略了现今AI赛道都有什么产品。AI不只是自然语言大模型,还有各种视觉,图像生成,还有显卡消耗大头 视频生成 等等。现在正是百家争鸣的时候,还有不少新初创拿了融资烧显卡呢,需求量比你单单评估llm开发大的多

21、之前李开复的零一万物算过使用300万美元和2000个GPU训练了一个高性能AI模型,而OpenAI训练GPT-4的费用在8000万到1亿美元之间,成本30-50倍差距,中美的大模型估值差距也是30-50倍,但大模型的效果差距不到一年,美国泡沫总归要破的。

22、用gpt4o,claude,gemini整理生成数据去帮助训练,可以省很多算力,如果没有前面的各种探路,v3肯定做不到2000张就训出来

23、说得好像训练完就完事了;你自己搭建个开源模型试试?训练完或者用别人训练好的模型,处理每一个业务逻辑你的破显卡是不是还得疯狂啸叫几秒甚至几分钟?如果上线实际大规模应用同时服务几百万几千万用户呢?

24、跟别人屁股后头当然容易了,都是用的别人训练出来的模型生成的数据训练的,然后做出来一个面向测试集的大模型,问题是如果没有别人的模型,再换一个测试集呢?这个v3我看别人测试连贪吃蛇都做不出来

25、就相同的深度推理,openai需要43秒,Deepseek要110秒。 而且上下文长度差一大截。

26、2000张卡要训练2个月,如果有2万张卡,训练一次的时间就可以缩短到一礼拜,可以使模型的迭代效率提升很多。 ps,据说微软光今年就买了60万张卡,这要是给deepseek,那还不一天一炉丹。

27、谁会拿几万张显卡天天训练玩。。。。储备显卡是为了提供大规模服务