大语言模型LLM

DeepSeek搭载英特尔芯片性能狂飙28倍！

KTransformers推出基于英特尔芯片的DeepSeek-R1/V3，性能飙升28倍！大家好，我们是 KTransformers 团队（以前因为做了一个叫 DeepSeek-V2 的本地 CPU/GPU 混合推理开源项目而挺有名的）。

Perplexity发布“去审查”DeepSeek版本

Perplexity刚刚发布了经过培训的DeepSeek R1，用于提供事实和公正的信息- MIT许可。语文数学能力双解放，敢说智商不掉线！ R1 1776 是一个 DeepSeek-R1 推理模型，经过 Perplexity AI 后期训练，可消

DeepSeek满血碾压o3-mini，登顶王位

DeepSeek R1 671 B 刚刚以 198 tokens/秒的速度打破了推理速度记录，成为了目前最快的推理模型！哇！DeepSeek-R1 671 B 真的超级厉害！它在 SambaNova Cloud 上跑出了 198 tokens/秒

Grok 3性能被低估，潜力巨大或超越o3！

人们严重低估了 Grok 3 的性能。我知道我们都不太喜欢马斯克，但我们能不能稍微客观一点，看看它的表现到底怎么样呢？有些人会说：“嗯，它还是比

英伟达用DeepSeek自动榨取GPU性能

英伟达新博客文章：LLM生成的GPU内核显示了FlexAttention的加速。前有DeepSeek极端榨取英伟达GPU硬件性能被曝光，英伟达反其道，用DeepSee

DeepSeek启示：通信是训练与推理最大区别

DeepSeek极端榨取硬件性能，看起来不同寻常！推理和训练之间最大的区别之一是通信需求。 1、对于推理：芯片之间不需要太多通信。你可以把它想象成普通的

4500美元重现DeepSeek：性能超o1-preview

伯克利团队以 4,500 美元重现 DeepSeek 的成功：1.5B模型超越 o1-preview！ RL强化学习

三个绝招大模型助力破解Github代码

本文介绍三种方法将Github开源项目交给大模型帮助你分析，阅读代码！ 1、将Github网址中的“github”替换为“gitingest”这是一个与LLM讨论整个

DeepSeek强化学习终获顶级学府认可

传统观点：学术界提供理论基础，业界推动应用落地是，但是实际上正好反过来，业界其实创新在前，学术界才确认理论。最近，麻省理工学院、康奈尔大学、华盛顿大学和微软研究院的学术人员开发了一个叫“通过自我对弈进行强化学习”（简称RLSP）的系统。这个系统可以教那

Cerebras芯片实现Mistral秒级超快推理

Cerebras芯片给 Mistral 的 Le Chat 带来了超快的推理功能。前几天，Mistral对他们的 Le Chat 网页界面（就是他们的 Cha

Deepseek成有史以来最受欢迎大模型

2025年DeepSeek中国三AI强势晋级世界赛

2025 年将是人工智能的疯狂时代：2025 年是人工智能发展的疯狂一年。就在去年，ChatGPT、Claude 和 Gemini 还是人工智能发展的主角。现在？我们有一场人工智能大战，每个人都在 Deepseek、Kimi、Meta、Perpl

大模型助独立开发：效率提升，灵感迸发

Harper Reed 描述了他如何用大型语言模型（LLM）来帮忙写代码的过程。这个过程显然是他经过深思熟虑的，而且已经发展了很多，还在不断改进。 Harper 在开始一个新项目时，会先进行

Claude 3.7称王：编码模型新霸主

Anthropic 推出 Claude 3.7 Sonnet，结合直接回答和“扩展思考”模式，推理能力强，还出了编程工具 Claude Code。模型在数学、编程上表现超棒，能省时间，目标是 2027 年收入超 OpenAI 三倍，今年就能赚钱。 Anth

Grok思考模式曝光：马斯克在操控真相

Grok思考模式泄露揭示系统提示，大资本家马斯克在操控AI，引发对信息操控和真相定义的质疑与反思。有人用这个提示询问Gr

小模型逆袭大模型：测试扩展是关键！

测试时间扩展（TTS）是一种通过在推理阶段增加一些额外的计算来提高大型语言模型（LLM）性能的重要方法。不过，目前的研究还没有系统地分析策略模型、过程奖励模型（PRM

失败案例：GPU算力租借

这篇文字主要讲述了公司在构建公共云服务过程中，对GPU支持的探索和挑战。公司最初投入大量资金，押注于为AI/ML推理任务提供GPU支持，并创建了Fly GPU Machines。然而，尽管GPU在AI/ML领域的重要性被正确判断，但公司发现其产品可能并不适合当前市场需求，尤其是开发者更倾向于