扩展定律原作者说:DeepSeek v3低成本不稀奇!

Dario是2020 年原始扩展定律论文的作者,他谈了对当前 AI 模型扩展趋势的看法,特别是对 DeepSeek v3 和 Claude 3.5 Sonnet 的分析。

Dario 指出,AI 领域不断涌现出各种创新,这些创新可能是对模型架构的改进(比如对 Transformer 架构的调整),也可能是更高效的硬件利用方式。

这些创新通常会改变成本与性能的曲线:
例如,如果某项创新带来了 2 倍的计算效率提升,那么原本需要 1000 万美元才能达到 40% 编码任务性能的模型,现在可能只需要 500 万美元。

Dario 认为,DeepSeekv3 虽然令人印象深刻,但它只是当前扩展定律下的预期进展,并没有带来根本性的突破:

  • 它的训练成本(不足600万美金)和性能提升符合行业趋势,而不是颠覆性的创新。

Claude 3.5 Sonnet :

  • Claude 3.5 Sonnet 的训练成本“高达几千万美元”,但并没有使用更大或更昂贵的模型(与某些谣言相反)。
  • 训练是在 9-12 个月前 完成的(大约在 2024 年 1 月至 4 月之间)。有趣的是,Sonnet 的训练截止日期是 2024 年 4 月,这可能意味着训练周期较短。

Dario 提到,Claude 3.5 Sonnet 是一个比 GPT-4 更好的模型,但其推理成本却比 GPT-4 低 10 倍,这表明成本效益的显著提升。

DeepSeek v3
Dario 认为,DeepSeek v3 是当前扩展定律下的一个预期进展,并没有带来根本性的突破。它的训练成本和性能提升符合行业趋势。

DeepSeek v3 是中国公司首次展示这种成本降低的模型,但这并不改变其符合行业趋势的本质。

Dario 对 R1 不太感兴趣,认为它在创新或工程上不如 V3 有趣。他认为 R1 受到关注的主要原因是它展示了模型的推理过程(而 OpenAI 的 o1 只显示最终答案),这是一个用户界面选择,而不是模型本身的突破。

2020 年原始扩展定律论文: