• 同学们注意啦!DeepSeek搞了个数学证明界的"解题小霸王"——DeepSeek-Prover-V2!这就像给电脑装了个超级数学大脑,而且还是开源的(敲重点:不要钱随便用!)。 DeepSeek-Prover-V2是: 一种专门为
  • DeepSeek R2 的病毒式小道消息:DeepSeek R2:单位成本下降97.3%,即将发布。 其自研分布式训练框架实现昇腾910B芯片集群利用率达82%,在FP16精度下实测算力达512PetaFLOPS,达到同规模A100集群的91%效能
  • BitNet b1.58 2B4T是微软研究院开发的第一个开源、纯1比特大语言模型(LLM),规模达到20亿参数。 它用4万亿个token训练而成,证明了纯1比特的大语言模型性能可以媲美同尺寸的主流开源全精度模型,同时在计算效率(内存占用、能耗、响应速度) icon
  • Qwen3 现已在 Unsloth 中进行微调 - 速度提高 2 倍,VRAM 减少 70% 大家好!现在,您可 icon
  • 我对在本地运行大型语言模型 (LLM) 的可能性感到兴奋。我决定为此买一张显卡,并想分享我使用 NVIDIA RTX 5060 Ti 16GB 的初步体验。简单来说,这是我的第一张专用显卡。我之前没有任何对比数据,所以一切对我来说都比较陌生。 我在 icon
  • Unsloth Dynamic v2.0 是一种超强AI模型压缩技术,专门用来让大语言模型(比如ChatGPT这类AI)变得更小、更快,但几乎不掉智商!减肥神器:原本几十GB的大模型,经过它压缩后可能只剩几GB,但性能几乎不降!加速神器:压缩后的模型跑得更快 icon
  • 阿里千问发布超强AI大脑全家桶——Qwen 3!这次一口气放了8个型号,从迷你款(0.6B)到巨无霸(235B)全都有! icon
  • 最近那些超级AI(比如DeepSeek之类推理模型)变得特别会做题,秘诀就是让它们像人类一样"把思考过程写出来"。但这篇论文发现了个反常识的现象——有时候不思考反而更厉害! 神奇发现:用最新AI"深度求索- icon
  • MAI-DS-R1 是一个 DeepSeek-R1 推理模型,经过微软 AI 团队的后期训练,旨在填补先前版本模型中的信息空白,并提升其风险状况,同时保持 R1 推理能力。该模型使用来自Tulu 3 SFT 数据集的 11 万个安全和不合规示例进行训练,此外还使用了内部开发的约 35 万个多 icon
  • Google新出的Gemma 3 QAT模型能让普通显卡用户也能用上顶级AI。这个经过特殊优化(QAT)的int4版本Gemma 3,把显存需求从54GB暴降到14.1GB,但效果几乎没打折。 简单说,QAT就像给AI做特训: 普通 icon
  • 全新开源型号 GLM-4-32B,性能媲美 Qwen 2.5 72B 该模型来自 ChatGLM(现为 Z.ai)。此外,还提供推理版、深度研究版和 9B 版(共 6 个模型)。MIT 许可证。 icon
  • Llama 4 Maverick在单个RTX 4090上以45 tk/s的速度本地化-我终于让它工作了! 我刚刚完成了一个后续的演示,我从Meta的4000亿参数,128个专家Llama 4 Maverick中获得了每秒45个以上的令牌,我想分享完 icon
  • 小语言模型本地AI能否干翻谷歌大模型Gemini 2.5?实测7款"野生学霸"表现! 参赛选手小模型名单: 通义千问Qwen 3 1.7B 小不点 通义千问Qwen3 4B 三好生 通义千问Qwen3 8B Q6 课代表 < icon
  • 《纽约时报》周三爆料:特朗普团队正琢磨着对中国AI公司DeepSeek下狠手,不仅要断供英伟达的AI芯片,还可能直接不让美国人用他家的人工智能服务。 这招明显是要在AI赛道卡中国脖子。自从DeepSeek的AI技术惊艳硅谷和华尔街,美国官员就绞尽脑汁要切断 icon
  • 这个"SOLO Bench"测试有多变态! 这玩意儿是个专门折磨AI的"造句地狱"——让AI用大约4000个单词的词库,硬憋出250个句子!每个句子必须严格4个单词,还得符合特定语法格式。最狠的是:每个单词全篇只能用一次!(比如"apple"用过一 icon
  • 我跟你们说个超神奇的事儿!Qwen3这回居然把AI乱编瞎话的老毛病给治了!我每次测试新AI都像老师抽查背书一样,专门让它背法语德语的名诗。结果你猜怎么着?这个2350亿参数的Qwen3明明个头不够大(要知道背欧洲诗歌起码得6000亿参数的大块头),还是个"偏科生"模型(MoE技术让它不能同时用全部脑 icon
  • 微软刚刚在 HF 上发布了基于 Phi4 架构的推理模型plus版本(Phi-4-reasoning-plus ) icon
  • DeepSeek 即将开源其推理引擎,该引擎是基于 vLLM 的修改版本。现在,DeepSeek 正准备将这些修改回馈社区。 几周前,在"开源周"活动里,我们公开了几个代码库。没想到大家特别热情——很多人跑来一起帮忙改bug、提建议,讨论得热火朝天 icon