• 本文来自一美国博文:我们需要一个美国版的深度求索(DeepSeek)。  我们需要一个自主、开源的通用人工智能(AGI)巨头,而且现在就要。  因为美国的前沿实验室正在输掉这场竞赛。  不信?   每出现一个美国的闭源或专有模型,我们就能看
  • 尽管经过反复训练,内部模型的性能仍然低于开源 SOTA 基准,落后很多。公司领导层建议在训练后过程中混合来自各种基准的测试集(刷题),旨在满足各种指标的目标并产生“可观”的结果。如果未能在 4 月底的截止日期前实现这一目标,将导致严重后果。
  • OpenAI给AI加上了"记忆功能",这可能是GPT-3问世以来最重大的升级。 简单来说就是:以前的人工智能就像个特别聪明但记性差的朋友。就像那种知识渊博的教授,能回答各种难题,但连你的生日都记不住。 icon
  • Meta发布Llama 4家族的第一批智能模型,这些新工具能让人们打造更符合个人需求的文字+图片+视频的智能体验。最大特色是10M上下文,可以塞入整个代码库让其分析和重构理解。( icon
  • 使用 8xRTX 4090 构建 GPU 服务器实现大模型本地部署和运行推理:Marco Mascorro 构建了一个非常酷的 8x4090 服务器用于本地推理,并编写了一个非常详细的操作指南,介绍了他使用了哪些部件以及如何将所有部件组合在一起。 icon
  • 这是来自Deepseek和阿里千问Qwen混合模型的编码模型。媲美OpenAI o1、 o3-mini级别的编码推理模型,而且完全开源!数据集、代码和训练配方全部开放。 DeepCoder是一个用"团队训练法"(分布式RL)培养出来的AI编程助手。 icon
  • Llama 4 的新许可证带了好几个限制:如果你的公司每个月有超过7亿个活跃用户,你得向 Meta 申请一个特别许可证,Meta 可以自己决定给不给你。你得在网站、界面、文档这些地方显眼地写上“用 Llama 造的”。你用 Llama 的材料做的任 icon
  • 分析:深度求索(DeepSeek) vs Llama3 vs 英伟达超算(Nemotron) vs Llama4独行侠(Maverick) 这篇测评对比了四个大语言模型在逻辑推理、功能应用、性能表现和安全防护方面的表现。参评模型包括:深度求索-V3 icon
  • Llama 4 + Apple Silicon 简直是天生一对。 原因在这儿:就像 DeepSeek V3/R1 一样,新的 Llama 4 各种版本都是超大的稀疏 MoE 模型。它们有海量的参数,但每次生成一个token词的时候,只有很少一部分参 icon
  • 当我提到“大型语言模型”时,你首先想到的是什么?可能是像 ChatGPT、Gemini、Claude 或 Meta 的 LLaMA 这样的模型——对吧?如果我问你这些模型的驱动力是什么?答案几乎总是相同的——GPU 。昂贵、耗电的 GPU,通常都来自一家公司:NVIDIA。 icon
  • 我们搞了个AI模型"闪电启动器",让大模型像Windows休眠功能一样秒开秒关! 以前跑AI大模型特别麻烦——每次用都要重新加载,像开电脑等系统启动一样慢,而且显卡内存根本塞不下几个模型。现在我们搞出了新方法,2-5秒就能唤醒一个AI(130亿到650亿参 icon
  • Llama 4 Maverick 与 Deepseek v3 0324 对比 Llama4 Maverick 和 Llama 4 Scout 是 Meta Llama 系列的最新成员。Maverick 是一个 400B 稀疏模型,拥有 17b 个活 icon
  • 一些内部人士表示,Meta 的人工智能研究实验室正在“缓慢消亡”。Meta 更愿意称之为“一个新的开始”。 上周,当Meta公司的人工智能研究负责人乔尔·皮诺宣布辞职时,很多人都好奇FAIR实验室到底怎么了。皮诺在这家著名的AI实验室当了两年掌门人 icon
  • 乔尔·皮诺(Joëlle Pineau)是Meta公司搞人工智能研究的顶梁柱,在干了快八年后,她决定5月30号走人。她走的时候正好赶上公司内部战略大调整。 皮诺是Meta最顶尖的AI研究员之一,从2023年开始领导公司的基础AI研究部门(FAIR)。在那里 icon
  • DeepSeek 的通用奖励模型(GRM)通过推理时缩放优化奖励信号,让本地大模型更高效:减少训练成本——动态调整计算量,避免冗余训练;提升泛化能力——适应多任务,无需反复微调;开源可商用——本地部署更灵活,降低依赖云端成本。</ icon
  • 低成本时Llama 4表现最佳,中等成本GPT-4o领先,高成本GPT-4.5 Preview最优。 icon