大语言模型LLM - 第19页

中国Deepseek可能完全不是独立自主的技术，他们可能借鉴了openAI技术，这些都正常，在科技发展过程中，相互学习相互赶超，关键是其引起的蝴蝶效应会拖慢美国openAI研究。萨姆·奥特曼（Sam Altman）这个人能力不值5000亿美元！他可能是我

DeepSeek之所以能如此迅速地击败其他公司，是因为他们都是宽客。背后是量化幻方，专门从事A股量化投资的公司，他们天生就能优化了大规模ML的亚纳秒延迟。有一

DeepSeek-R1来了！性能与OpenAI-o 1相当，便宜30倍，甚至在几乎所有的基准测试中都优于Claude 3.5 Sonnet和o 1-mini！MIT许可：Distill免费商业化！网站API现已上线！DeepThink就在今天已经开放：http://chat.

昨天，人工智能领域发生了一些事情：杨立昆领导的Meta 生成式人工智能部门（Meta genai org）陷入了恐慌模式。杨立昆是 Meta（原 Facebook）的首席人工智能科学家，同时也是纽约大学的教授。杨立昆因其在深度学习领域的开创性工作

这周，OpenAI 推出了一款叫 Operator 的新产品。Operator 基本上就是一个能帮你上网的 AI 助手。他们不是第一个这么做的，几个月前 Anthropic 也推出了一款叫“

DeepSeek 可能会带火中国的芯片行业，让中国芯片进入一个超速发展时期：DeepSeek V3 从一开始就能在华为的昇腾 Ascend 芯片上跑推理。华为的 910C 芯片（能匹配英伟达的 H100 ）既可以用来训练，也能用来推理。英伟达厉

OpenAI首席研究官肯定了DeepSeek的核心成果：通过强化学习自动生成了思维链（这些归功于DeepSeek的统一数学公式），详细见：DeepSeek秘诀：能在学习过程中

DeepSeek-R1：是如何让 OpenAI 级别的推理模型如此高效的？最近我们都看到了关于 DeepSeek-R1 的讨论。它取得了一些惊人的成绩，在推理任务中经常匹敌甚至超过 OpenAI 的 o1 系列……而且它只用一小部分参数和低得多的成本就做

DeepSeek 通过 r1 实现了令人难以置信的成就，这可能是自 GPT-4 以来最重要的 AI 发布：一个开源的、MIT 许可的推理模型，可与 OpenAI 的旗舰产品 o1 相媲美，这在几个月前是不可想象的。 DeepSeek 推理（测试时计

DeepSeek 的出现是否意味着前沿 LLM 开发不再需要大规模 GPU 集群？简单来说：不是的。虽然 DeepSeek 的 V3 模型通过一些非常厉害的优化技术，让 GPU 的使用效率变得更高了，但这并不意味着像 Google、OpenAI、Meta

忘记 TikTok：美国可能需要禁止 DeepSeek-V3！ Scale AI 公司的老板 Alexandr Wang 说，过去十年里，美国在人工智能（AI）比赛里可能一直比中国厉害，但到了圣诞节那天，情况变了。他的公司给 OpenAI、谷歌这些大 AI

DeepSeek就像打破了“四分钟跑一英里”的纪录一样，做了一件大家以前觉得不可能的事。突然之间，语言模型通过“RL强化学习”变得超级厉害，而且它的规模很小，小到一个博士生几天就能重新做出来，如下，今年肯定会很疯狂！我们在CountDown游戏里

DEEPSEEK-R1 API 即将作为可下载的 NIM 微服务提供，是 NVIDIA AI 企业软件平台的一部分. De

英伟达股价周一下跌17%，原因是投资者担心这家中国公司与OpenAI等竞争对手相比，使用的英伟达芯片远少于美国公司。但DeepSeek周一也在努力适应新用户的涌入，数次出现网络瘫痪，无法访问。英伟达达周一表示，中国的人工智能公司DeepSeek的进步证明

DeepSeek刚发布了一款开源多模态人工智能模型Janus-Pro。其中Janus-Pro-7B在GenEval和DPG-Bench基准测试中击败了OpenAI的D

Dario是2020 年原始扩展定律论文的作者，他谈了对当前 AI 模型扩展趋势的看法，特别是对 DeepSeek v3 和 Claude 3.5 Sonnet 的分析。 Dario 指出，AI 领域不断涌现出各种创新，这些创新可能是对模型架构的改进（比如

Meta 正在召集多个工程师的“作战室”，以研究 DeepSeek 的人工智能如何以极低的价格击败其他所有公司。作战室：意味着的只是一群人需要在较长的一段时间内保持通话并集中注意力。每两个月会召开一次“作战室”。 </

安巴尼旗下的信实工业（Reliance Industries）与英伟达合作，计划在印度古吉拉特邦的贾姆纳格尔（Jamnagar）建造全球最大的AI数据中心。该数据中心初期规模为1千兆瓦（1 GW），并计划进一步扩展至2000兆瓦（2000 MW），主要由信实旗下电信公司Jio负责运营