DeepSeek破解CUDA、引领端侧革命、挑战垄断

从破解CUDA到端侧推理模型,DeepSeek如何颠覆AI领域,挑战科技巨头垄断?

1、为何DeepSeek能破解CUDA?
据传:英伟达只是限制了GPU的硬件功能,但它的软件CUDA并没有改。所以,当DeepSeek用被“阉割”的GPU运行CUDA时,就会遇到各种奇怪的bug。
而正是这些bug,意外暴露了CUDA底层的秘密。就像黑客一样,每次遇到bug,都是一次深入研究和修改底层的机会。
换句话说,禁运不仅逼出了创新,还意外打开了破解CUDA的大门!

2、DeepSeek引领端侧推理模型盛行
DeepSeek、Deep Mind和Deep Research都集中在纯RL

  • Deep Research”通过端到端的强化学习训练(端侧模型),专注于跨领域的复杂浏览和推理任务。
  • 通过训练,模型学会了规划和执行多步骤的轨迹来找到所需的数据,必要时进行回溯和对实时信息做出反应。
  • 该模型还能够浏览用户上传的文件,使用Python工具绘制和迭代图表,在其响应中嵌入生成的图表和来自网站的图像,并引用其来源中的特定句子或段落。
  • 由于这种训练,它在许多专注于现实世界问题的公共评估中达到了新的高度。

也许Deepseek R1论文是LRM研究的基石。这就是开源研究的力量。

如果我们把同样的训练理念应用到机器人身上会发生什么? 一个足够大的基础模型,以便机器人可以四处移动并应用端到端RL?

RL是突破现有数据获得新知识的方法。

3、事实是秘密已经泄露了
每个人都知道如何编写Transformer,如何RLHF,如何使用强化学习进行推理。除了DeepSeek和Llama之外,还会有成千上万的开源实现。

Anthropic首席执行官Dario Amodei表示,对DeepSeek进行的人工智能安全评估显示,这是他们测试过的生成潜在危险信息的最差模型。
马克·安德森认为:制造恐惧,以攫取监管权,削弱开源人工智能。

马克·安德森联合创立了a16z,这是一家顶级风险投资公司,投资了 Facebook、Twitter、Airbnb、Coinbase、Stripe 等许多科技巨头。

AI应该像电一样。它是下一次工业革命的基础,应该尽可能高效和具有成本效益。它不应该被精英们建立为垄断。

马克·安德森认为:作为美国,我们现在有两个选择:在AI中获胜,包括在开源AI中获胜。或者让中国在人工智能上赢,在全世界赢。我认为我们必须赢。