DeepSeek破解CUDA、引领端侧革命、挑战垄断

从破解CUDA到端侧推理模型，DeepSeek如何颠覆AI领域，挑战科技巨头垄断？

1、为何DeepSeek能破解CUDA？
据传：英伟达只是限制了GPU的硬件功能，但它的软件CUDA并没有改。所以，当DeepSeek用被“阉割”的GPU运行CUDA时，就会遇到各种奇怪的bug。
而正是这些bug，意外暴露了CUDA底层的秘密。就像黑客一样，每次遇到bug，都是一次深入研究和修改底层的机会。
换句话说，禁运不仅逼出了创新，还意外打开了破解CUDA的大门！

2、DeepSeek引领端侧推理模型盛行
DeepSeek、Deep Mind和Deep Research都集中在纯RL上

“Deep Research”通过端到端的强化学习训练（端侧模型），专注于跨领域的复杂浏览和推理任务。
通过训练，模型学会了规划和执行多步骤的轨迹来找到所需的数据，必要时进行回溯和对实时信息做出反应。
该模型还能够浏览用户上传的文件，使用Python工具绘制和迭代图表，在其响应中嵌入生成的图表和来自网站的图像，并引用其来源中的特定句子或段落。
由于这种训练，它在许多专注于现实世界问题的公共评估中达到了新的高度。

也许Deepseek R1论文是LRM研究的基石。这就是开源研究的力量。

如果我们把同样的训练理念应用到机器人身上会发生什么？一个足够大的基础模型，以便机器人可以四处移动并应用端到端RL？

RL是突破现有数据获得新知识的方法。

3、事实是秘密已经泄露了
每个人都知道如何编写Transformer，如何RLHF，如何使用强化学习进行推理。除了DeepSeek和Llama之外，还会有成千上万的开源实现。

Anthropic首席执行官Dario Amodei表示，对DeepSeek进行的人工智能安全评估显示，这是他们测试过的生成潜在危险信息的最差模型。
马克·安德森认为：制造恐惧，以攫取监管权，削弱开源人工智能。

马克·安德森联合创立了a16z，这是一家顶级风险投资公司，投资了 Facebook、Twitter、Airbnb、Coinbase、Stripe 等许多科技巨头。

AI应该像电一样。它是下一次工业革命的基础，应该尽可能高效和具有成本效益。它不应该被精英们建立为垄断。

马克·安德森认为：作为美国，我们现在有两个选择：在AI中获胜，包括在开源AI中获胜。或者让中国在人工智能上赢，在全世界赢。我认为我们必须赢。

DeepSeek破解CUDA、引领端侧革命、挑战垄断

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道