大语言模型LLM - 第3页

英伟达发布专为AI推理预填充阶段优化的Rubin CPX芯片，采用GDDR7显存与计算优先架构，较传统方案降低成本50%以上，推出三种机架配置最大支持396颗芯片，迫使竞争对手重新规划技术路线。英伟达这次又让整个硅谷失眠了！就在昨天发布的Rubin CP

DeepSeek-V3.2-Exp通过自研稀疏注意力机制，在几乎不损失性能的前提下，大幅降低长上下文计算成本，为大模型推理与训练带来全新可能。 DeepSeek团队刚刚放出的实打实的“效率炸弹”——DeepSeek-V3.2-Exp。这是给大模型装

开发者深度对比Claude、Gemini和GPT5代码工具，发现GPT5驱动的Codex以一次成型的精准度实现碾压式优势！程序员亲测AI编码工具巨变！GPT5代码功能封神，Claude和Gemini瞬间不香了!

谷歌的人工智能模型“Gemini 2.5 Deep Think”，在世界顶级的编程竞赛ICPC总决赛上，不仅打败了无数人类天才，还解决了一道所有人类队伍都束手无策的难题。大家可能听说过ICPC，中文叫国际大学生程序设计竞赛，被誉为“编程界的奥林匹克”。规

阿里通义千问3 Max正式上线，以55分登顶非推理模型智商榜首，多项能力全面跃升，但输出更“话痨”，仍坚守文本赛道。阿里巴巴旗下的通义实验室正式宣布：通义千问3 Max（Qwen3 Max）全面上线，进入通用可用（GA）阶段！

DeepSeek V3.1 Terminus在推理模式下登顶开源模型榜首，与gpt-oss-120b并列第一，小幅领先Qwen3 235B，在指令遵循、长上下文和终端编码能力上实现显著跃升。第一章：风云再起——中国AI的“王座之争”<

OpenAI在2025国际大学生编程竞赛全解12题，击败人类冠军与谷歌Gemini。采用GPT-5+实验模型双系统协作，未针对比赛特殊训练，展现超强通用推理能力。 OpenAI的新模型在2025年ICPC世界总决赛中获得了12/12的满分，Google模型

Anthropic通过“AI显微镜”揭示克劳德的多语言思考、提前规划诗句、复杂心算及推理机制，发现其“幻觉”与“越狱”原因，为AI透明性提供新工具，助力安全与可靠性提升。本文深入挖掘一个超级神秘的大脑——像克劳德这样的大型语言模型！想知道它是怎么

网友与Grok4互怼，你才是机器人，你全家都是。。。

Transformer通过“残差流”垂直深化每个词的信息，同时用“键值流”在各层横向广播所有词的信息。注意力机制像“信息路由器”，让任意位置的词都能根据需求检索和融合上下文中的所有记忆，从而实现深度理解。 Transformer是一个巨大的信息加工厂，它的

OpenAI推出Pulse：可以在夜里为您工作，不断考虑您的兴趣，您的连接数据，您最近的聊天等等数据，这样每天早上你醒过来，就会得到一组你可能感兴趣的定制生成的信息。 OpenAI Pulse是啥？每天一次，Pul

埃隆·马斯克财富突破5000亿美元，xAI发布Grok 4 Fast，以47倍成本优势和顶级性能称霸AI小模型，击败GPT-5 Mini，领跑LMArena搜索榜，展现科技与财富的双重巅峰。埃隆·马斯克的财富巅峰与xAI的Grok 4 Fast：智能与效

Anthropic发布Claude Sonnet 4.5，编程能力登顶SWE-bench，可连续工作超30小时，同步推出Agent SDK与VS Code插件，全面挑战GPT-5。 Claude Sonnet 4.5震撼发布！Anthropic官宣：这款A

谷歌发布Gemini 2.5 Flash及Lite新版，速度翻倍成本降75%，强化智能体任务与多模态能力，推-latest别名简化调用。昨天，谷歌AI团队扔下了一颗重磅炸弹——全新升级的Gemini 2.5 Flash和Gemini 2.5

DeepSeek公布其R1模型训练成本仅29.4万美元，使用512颗H800芯片训练80小时。相比美国AI巨头动辄上亿美元的开销，这一结果震动全球，突显中国AI在低成本高效率上的突破，同时引发中美AI竞争新焦点。中国DeepSeek再爆猛料！他们

推理模型通过算法创新，在数学和科学任务上实现相当于10倍训练算力的性能提升，远超传统模型进步速度。推理模型的兴起带来了多大的范式转变？深入研究了数据，发现至少在一些基准测试中，推理模型在算法上的进步可能与

来自一位前微软员工的独家见解，他曾经在微软内部与OpenAI（开放人工智能公司）合作过，对两家公司之间的关系有深刻洞察。咱们这位作者，化名“前微软员工”，曾在微软的高层圈子里混迹，负责跟OpenAI的项目打交道，还曾是微软首席技术官办公室的常客。

DeepMind提出视频大模型Veo 3有望成为视觉领域的通用基础模型，具备零样本处理、物理模拟与视觉推理能力，或引发AI视觉范式革命。谷歌DeepMind刚刚放出重磅观点：未来处理图像和视频也会有了自己的通用大模型，可能会像今天的大语言模型（L