• 本文来自一美国博文:我们需要一个美国版的深度求索(DeepSeek)。  我们需要一个自主、开源的通用人工智能(AGI)巨头,而且现在就要。  因为美国的前沿实验室正在输掉这场竞赛。  不信?   每出现一个美国的闭源或专有模型,我们就能看
  • 尽管经过反复训练,内部模型的性能仍然低于开源 SOTA 基准,落后很多。公司领导层建议在训练后过程中混合来自各种基准的测试集(刷题),旨在满足各种指标的目标并产生“可观”的结果。如果未能在 4 月底的截止日期前实现这一目标,将导致严重后果。
  • Meta发布Llama 4家族的第一批智能模型,这些新工具能让人们打造更符合个人需求的文字+图片+视频的智能体验。最大特色是10M上下文,可以塞入整个代码库让其分析和重构理解。( icon
  • 网友分享:我用的是苹果顶配笔记本M1 Max芯片,最近换成了最新的M4 Max——速度确实快了不少(大概有3倍提升),但还是远远比不上5年前卖700美元的NVIDIA显卡RTX 3090。 虽然这台电脑能勉强运行大模型,但实际体验很差。举个例子:连最小的1 icon
  • 使用 8xRTX 4090 构建 GPU 服务器实现大模型本地部署和运行推理:Marco Mascorro 构建了一个非常酷的 8x4090 服务器用于本地推理,并编写了一个非常详细的操作指南,介绍了他使用了哪些部件以及如何将所有部件组合在一起。 icon
  • Llama 4 的新许可证带了好几个限制:如果你的公司每个月有超过7亿个活跃用户,你得向 Meta 申请一个特别许可证,Meta 可以自己决定给不给你。你得在网站、界面、文档这些地方显眼地写上“用 Llama 造的”。你用 Llama 的材料做的任 icon
  • 这可能是在消费硬件上运行 DeepSeek-V3 的最佳和最用户友好的方式,也可能是最实惠的方式。听起来你终于可以在家里本地运行 GPT-4o 级别的模型了,而且可能质量更好。 DeepSeek-V3 现在在 Mac Studio 上以每秒 icon
  • Llama 4 + Apple Silicon 简直是天生一对。 原因在这儿:就像 DeepSeek V3/R1 一样,新的 Llama 4 各种版本都是超大的稀疏 MoE 模型。它们有海量的参数,但每次生成一个token词的时候,只有很少一部分参 icon
  • 以前我们对大语言模型(LLM)到底怎么运作几乎一无所知...直到现在。 AnthropicAI刚刚发布了一份超级震撼的研究论文,详细揭示了AI"思考"的某些方式。结果完全颠覆了我们的认知! icon
  • 奥特曼说OpenAI今年夏天要发布一个叫"Open Weight"的AI模型 - 这是本周的大新闻。谁能用简单的话说说这是啥?Deep Seek已经有类似的东西了吗? 想象每个单词都对应一个数字,这些数字之间互相关联,就像朋友关系链, icon
  • 乔尔·皮诺(Joëlle Pineau)是Meta公司搞人工智能研究的顶梁柱,在干了快八年后,她决定5月30号走人。她走的时候正好赶上公司内部战略大调整。 皮诺是Meta最顶尖的AI研究员之一,从2023年开始领导公司的基础AI研究部门(FAIR)。在那里 icon
  • 科学家通过大语言模型发现自闭症真正特点:重复做同一件事和特别喜欢与感觉有关某一样东西(比如总是喜欢画画、喜欢弹钢琴),这些特点比不擅长跟人打交道更能说明一个人可能有自闭症。以往人们误区以为自闭症是一个情商不高,不喜欢与人打交道,才有自闭倾向,现在,通过大语言 icon
  • 因为用的人太多,OpenAI 现在暂时不让新用户玩 Sora 视频生成功能了。这事儿发生的时候,他们正忙着应付大家疯抢新出的 GPT-4o 图片功能——之前有个叫 Ghibli 的功能太火爆,直接把他们的显卡算力给榨干了。不过新用户还是能正常玩图片生成,只是视频功能 icon
  • 人们上网时只爱看自己想看的东西,就像刷短视频只点赞自己喜欢的,对反对意见直接划走。 本来搜索引擎能治这个毛病,把靠谱的答案排前面,让大家多看到真相。 但现实是两重暴击: 第一,骗子网站会钻 icon
  • 我们已经进入 2025 年 3 个月了……随着 Deepseek V3 新品和 Gemini 2.0 pro 实验版 03-25 的发布,今年迄今为止至少已发布了 17 个主要模型,其中 4 个模型在各种指标/基准/分析中独立占据了 SOTA 位置。 在这 icon
  • 低成本时Llama 4表现最佳,中等成本GPT-4o领先,高成本GPT-4.5 Preview最优。 icon