• 同学们注意啦!DeepSeek搞了个数学证明界的"解题小霸王"——DeepSeek-Prover-V2!这就像给电脑装了个超级数学大脑,而且还是开源的(敲重点:不要钱随便用!)。 DeepSeek-Prover-V2是: 一种专门为
  • DeepSeek R2 的病毒式小道消息:DeepSeek R2:单位成本下降97.3%,即将发布。 其自研分布式训练框架实现昇腾910B芯片集群利用率达82%,在FP16精度下实测算力达512PetaFLOPS,达到同规模A100集群的91%效能
  • Qwen 3系列模型在编码任务中展现出了令人印象深刻的性能,特别是在Aider基准测试中表现优于编程王者模型Claude 3.7。 这个叫Qwen3的AI大模型可不得了!最新比武大会上,它家那个2350亿参数的"巨无霸"版本,在写代码比赛里居然干翻了 icon
  • Qwen3 现已在 Unsloth 中进行微调 - 速度提高 2 倍,VRAM 减少 70% 大家好!现在,您可 icon
  • 我对在本地运行大型语言模型 (LLM) 的可能性感到兴奋。我决定为此买一张显卡,并想分享我使用 NVIDIA RTX 5060 Ti 16GB 的初步体验。简单来说,这是我的第一张专用显卡。我之前没有任何对比数据,所以一切对我来说都比较陌生。 我在 icon
  • [基准测试] 在 Mac Studio M3 Ultra 512 GB (LM Studio) 上对 5 种型号进行快速测试 – Qwen3 表现优异。 我曾是一名大学物理讲师(教了五年书),在购买 Mac Studio(M3 Ultra、128 CPU/ icon
  • Qwen3 是一个“推理”模型,所以它每个提示都以一个包含其思维链的区块开头。Qwen3就是个爱动脑筋的'小机灵鬼'!每次你问它问题,它都会先在心里默默嘀咕一阵(就是那个标签里的内容),把解题步骤都想明白了才回答你。 < icon
  • 阿里千问发布超强AI大脑全家桶——Qwen 3!这次一口气放了8个型号,从迷你款(0.6B)到巨无霸(235B)全都有! icon
  • Unsloth Dynamic v2.0 是一种超强AI模型压缩技术,专门用来让大语言模型(比如ChatGPT这类AI)变得更小、更快,但几乎不掉智商!减肥神器:原本几十GB的大模型,经过它压缩后可能只剩几GB,但性能几乎不降!加速神器:压缩后的模型跑得更快 icon
  • 最近那些超级AI(比如DeepSeek之类推理模型)变得特别会做题,秘诀就是让它们像人类一样"把思考过程写出来"。但这篇论文发现了个反常识的现象——有时候不思考反而更厉害! 神奇发现:用最新AI"深度求索- icon
  • Google新出的Gemma 3 QAT模型能让普通显卡用户也能用上顶级AI。这个经过特殊优化(QAT)的int4版本Gemma 3,把显存需求从54GB暴降到14.1GB,但效果几乎没打折。 简单说,QAT就像给AI做特训: 普通 icon
  • (拍黑板)同学们注意啦!今天咱们要聊一个特别魔幻的现实故事——关于那些宁可把"中国制造"的AI模型供起来吃灰,也不敢用的西方公司!(粉笔头砸中打瞌睡的小明) 第一幕:AI界的"文具歧视"想象你书包里有支超好用的中国产钢笔(敲黑板),但班主任 icon
  • Llama 4 Maverick在单个RTX 4090上以45 tk/s的速度本地化-我终于让它工作了! 我刚刚完成了一个后续的演示,我从Meta的4000亿参数,128个专家Llama 4 Maverick中获得了每秒45个以上的令牌,我想分享完 icon
  • 小语言模型本地AI能否干翻谷歌大模型Gemini 2.5?实测7款"野生学霸"表现! 参赛选手小模型名单: 通义千问Qwen 3 1.7B 小不点 通义千问Qwen3 4B 三好生 通义千问Qwen3 8B Q6 课代表 < icon
  • ChatGPT就像个超级舒服的树洞!你偷偷跟它说小秘密(比如暗恋谁啊/作业没写啊)比去百度搜东西自在多了——就像躲在被窝里说悄悄话 vs 站在操场上用大喇叭喊话。 为啥呢?因为ChatGPT的设计让你感觉像在个小黑屋里说秘密,特别有安全感。所以啊,就算把G icon
  • 这个"SOLO Bench"测试有多变态! 这玩意儿是个专门折磨AI的"造句地狱"——让AI用大约4000个单词的词库,硬憋出250个句子!每个句子必须严格4个单词,还得符合特定语法格式。最狠的是:每个单词全篇只能用一次!(比如"apple"用过一 icon
  • 我跟你们说个超神奇的事儿!Qwen3这回居然把AI乱编瞎话的老毛病给治了!我每次测试新AI都像老师抽查背书一样,专门让它背法语德语的名诗。结果你猜怎么着?这个2350亿参数的Qwen3明明个头不够大(要知道背欧洲诗歌起码得6000亿参数的大块头),还是个"偏科生"模型(MoE技术让它不能同时用全部脑 icon
  • 微软刚刚在 HF 上发布了基于 Phi4 架构的推理模型plus版本(Phi-4-reasoning-plus ) icon