DeepSeek大模型 - 第11页

中国Deepseek可能完全不是独立自主的技术，他们可能借鉴了openAI技术，这些都正常，在科技发展过程中，相互学习相互赶超，关键是其引起的蝴蝶效应会拖慢美国openAI研究。萨姆·奥特曼（Sam Altman）这个人能力不值5000亿美元！他可能是我

DeepSeek之所以能如此迅速地击败其他公司，是因为他们都是宽客。背后是量化幻方，专门从事A股量化投资的公司，他们天生就能优化了大规模ML的亚纳秒延迟。有一

Deepseek R1-Zero关键两项发现：无需人类专家、有自己专业领域语言DSL，也就是没有SFT，有自己DSL! ARC Prize基金会对DeepSeek发布的R1-Zero和R1“推理”系统的分析。

DeepSeek 可能会带火中国的芯片行业，让中国芯片进入一个超速发展时期：DeepSeek V3 从一开始就能在华为的昇腾 Ascend 芯片上跑推理。华为的 910C 芯片（能匹配英伟达的 H100 ）既可以用来训练，也能用来推理。英伟达厉

OpenAI首席研究官肯定了DeepSeek的核心成果：通过强化学习自动生成了思维链（这些归功于DeepSeek的统一数学公式），详细见：DeepSeek秘诀：能在学习过程中

DeepSeek-R1：是如何让 OpenAI 级别的推理模型如此高效的？最近我们都看到了关于 DeepSeek-R1 的讨论。它取得了一些惊人的成绩，在推理任务中经常匹敌甚至超过 OpenAI 的 o1 系列……而且它只用一小部分参数和低得多的成本就做

DeepSeek 的研究发现，模型在强化学习（RL）训练中，经过多次迭代后，会突然开始生成思维链，并显著提升在数学等复杂任务上的表现。什么是

DeepSeek 通过 r1 实现了令人难以置信的成就，这可能是自 GPT-4 以来最重要的 AI 发布：一个开源的、MIT 许可的推理模型，可与 OpenAI 的旗舰产品 o1 相媲美，这在几个月前是不可想象的。 DeepSeek 推理（测试时计

DeepSeek-R1 是 AI 开放模型生态系统向前迈出的一大步，其最新模型在多项指标上与 OpenAI 的 o1 相媲美。他们用更少的资金和计算实现了这一目标，这一事实引起了很多炒作和关注。如果想了解大模型的入门，参考这个比喻：

DeepSeek 的出现是否意味着前沿 LLM 开发不再需要大规模 GPU 集群？简单来说：不是的。虽然 DeepSeek 的 V3 模型通过一些非常厉害的优化技术，让 GPU 的使用效率变得更高了，但这并不意味着像 Google、OpenAI、Meta

最近中国AI创业公司深度求索（DeepSeek）火了，他们搞的DeepSeek 3模型用更少的电脑算力就达到了和OpenAI差不多的水平，还省了好多钱。这下子好多投资人慌了，担心这会影响英伟达（NVIDIA）卖高端显卡的生意——毕竟现在训练AI都得用他们的顶级显卡。

DeepSeek就像打破了“四分钟跑一英里”的纪录一样，做了一件大家以前觉得不可能的事。突然之间，语言模型通过“RL强化学习”变得超级厉害，而且它的规模很小，小到一个博士生几天就能重新做出来，如下，今年肯定会很疯狂！我们在CountDown游戏里

DEEPSEEK-R1 API 即将作为可下载的 NIM 微服务提供，是 NVIDIA AI 企业软件平台的一部分. De

英伟达股价周一下跌17%，原因是投资者担心这家中国公司与OpenAI等竞争对手相比，使用的英伟达芯片远少于美国公司。但DeepSeek周一也在努力适应新用户的涌入，数次出现网络瘫痪，无法访问。英伟达达周一表示，中国的人工智能公司DeepSeek的进步证明

Dario是2020 年原始扩展定律论文的作者，他谈了对当前 AI 模型扩展趋势的看法，特别是对 DeepSeek v3 和 Claude 3.5 Sonnet 的分析。 Dario 指出，AI 领域不断涌现出各种创新，这些创新可能是对模型架构的改进（比如

如果训练人工智能的成本降低了，那么投资人工智能的回报就会更高。对于那些在科技、工业、公用事业和能源领域已经因为“人工智能基础设施

DeepSeek刚发布了一款开源多模态人工智能模型Janus-Pro。其中Janus-Pro-7B在GenEval和DPG-Bench基准测试中击败了OpenAI的D

Meta 正在召集多个工程师的“作战室”，以研究 DeepSeek 的人工智能如何以极低的价格击败其他所有公司。作战室：意味着的只是一群人需要在较长的一段时间内保持通话并集中注意力。每两个月会召开一次“作战室”。 </