大语言模型LLM - 第2页

杰弗里欣顿说，人工智能可能已经有了主观经验，但没有意识到这一点，因为他们的自我意识是建立在我们对意识的错误信念。欣顿对主观经验的定义与更常见的定义有很大的不同。杰弗里·欣顿提出AI或已具主观经验，挑战传统意识定义；人类需放下例外论，直面意识本质

MoE训练依赖派发、聚合与梯度同步三大通信密集型操作，GB200 NVL72凭借72-GPU全互联高带宽域，彻底解决大规模专家并行的通信瓶颈。在当今大模型训练的最前沿，混合专家模型（Mixture of Experts，简称MoE）已经成为突破性能瓶颈的

AI公司Palantir凭借AIP平台引爆AI企业服务市场增长，美国商业收入同比暴增93%，但104倍市销率暗藏巨大风险。 —帕兰提尔（Palantir）因为一份炸裂的财报刷屏了。这家公司到底有多猛？美国商业收入一个季度狂飙93%，合同总价值翻两倍多，连英

DeepSeek-V3.2-Exp通过自研稀疏注意力机制，在几乎不损失性能的前提下，大幅降低长上下文计算成本，为大模型推理与训练带来全新可能。 DeepSeek团队刚刚放出的实打实的“效率炸弹”——DeepSeek-V3.2-Exp。这是给大模型装

阿里通义千问3 Max正式上线，以55分登顶非推理模型智商榜首，多项能力全面跃升，但输出更“话痨”，仍坚守文本赛道。阿里巴巴旗下的通义实验室正式宣布：通义千问3 Max（Qwen3 Max）全面上线，进入通用可用（GA）阶段！

DeepSeek V3.1 Terminus在推理模式下登顶开源模型榜首，与gpt-oss-120b并列第一，小幅领先Qwen3 235B，在指令遵循、长上下文和终端编码能力上实现显著跃升。第一章：风云再起——中国AI的“王座之争”<

Claude Sonnet 4.5实测：30小时编码神话背后，UI与复杂调试仍是硬伤，开发者需理性看待“最强”光环。 Claude Sonnet 4.5横空出世！软件开发者实测后集体炸锅：30小时连续写代码？真有这么神？

Anthropic通过“AI显微镜”揭示克劳德的多语言思考、提前规划诗句、复杂心算及推理机制，发现其“幻觉”与“越狱”原因，为AI透明性提供新工具，助力安全与可靠性提升。本文深入挖掘一个超级神秘的大脑——像克劳德这样的大型语言模型！想知道它是怎么

OpenAI推出Pulse：可以在夜里为您工作，不断考虑您的兴趣，您的连接数据，您最近的聊天等等数据，这样每天早上你醒过来，就会得到一组你可能感兴趣的定制生成的信息。 OpenAI Pulse是啥？每天一次，Pul

Meta超级智能实验室首篇论文REFRAG通过将检索文档压缩为模型可读嵌入，仅展开关键片段，实现RAG首字延迟降低30倍，准确率无损，为AI产品降本增效提供新范式。Meta超级智能实验室首篇论文震惊业界：不是更大模型，而是让RAG快30倍！ AI行

Anthropic发布Claude Sonnet 4.5，编程能力登顶SWE-bench，可连续工作超30小时，同步推出Agent SDK与VS Code插件，全面挑战GPT-5。 Claude Sonnet 4.5震撼发布！Anthropic官宣：这款A

谷歌发布Gemini 2.5 Flash及Lite新版，速度翻倍成本降75%，强化智能体任务与多模态能力，推-latest别名简化调用。昨天，谷歌AI团队扔下了一颗重磅炸弹——全新升级的Gemini 2.5 Flash和Gemini 2.5

推理模型通过算法创新，在数学和科学任务上实现相当于10倍训练算力的性能提升，远超传统模型进步速度。推理模型的兴起带来了多大的范式转变？深入研究了数据，发现至少在一些基准测试中，推理模型在算法上的进步可能与

谷歌发布Veo 3.1，实现更锐利画面、真实纹理与同步音频生成，全面升级Flow平台视频创作能力。谷歌重磅升级！Veo 3.1来了，画面更锐利、纹理更真实、音效更震撼！ 2025年10月15日，谷歌

Transformer统一架构并未催生专用硬件霸权，反而凸显GPU通用可编程优势；性能瓶颈在内存而非算力，灵活控制平面+高效内存利用才是关键。你以为Transformer统一了模型架构，专用AI芯片就该大行其道？可现实恰恰相反——通用计算

顶尖大模型在国际天文奥赛中碾压人类选手，但空间推理仍是致命短板。最近，一篇震撼学术圈的论文横空出世——来自美国俄亥俄州立大学、巴西圣保罗大学等机构的研究团队，把五个最顶尖的大语言模型拉进了“国际天文与天体物理奥林匹克竞赛”（IOAA）的考场。结果

OpenAI发布Sora 2视频大模型，实现真实物理模拟、音画同步与数字分身功能，并推出iOS社交App，推动AI视频进入实用化新阶段。 OpenAI深夜丢炸弹：Sora 2让篮球会弹、人会后空翻，还自带杜比音效；顺手发个社交App，把TikTok按在地上

DeepMind提出视频大模型Veo 3有望成为视觉领域的通用基础模型，具备零样本处理、物理模拟与视觉推理能力，或引发AI视觉范式革命。谷歌DeepMind刚刚放出重磅观点：未来处理图像和视频也会有了自己的通用大模型，可能会像今天的大语言模型（L