Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
DeepSeek大模型
DeepSeek Prover:数学证明自动化
同学们注意啦!DeepSeek搞了个数学证明界的"解题小霸王"——DeepSeek-Prover-V2!这就像给电脑装了个超级数学大脑,而且还是开源的(敲重点:不要钱随便用!)。 DeepSeek-Prover-V2是: 一种专门为
DeepSeek R2+华为芯片=便宜97.3%
DeepSeek R2 的病毒式小道消息:DeepSeek R2:单位成本下降97.3%,即将发布。 其自研分布式训练框架实现昇腾910B芯片集群利用率达82%,在FP16精度下实测算力达512PetaFLOPS,达到同规模A100集群的91%效能
微软发布了全新的 2B bitnet模型
BitNet b1.58 2B4T是微软研究院开发的第一个开源、纯1比特大语言模型(LLM),规模达到20亿参数。 它用4万亿个token训练而成,证明了纯1比特的大语言模型性能可以媲美同尺寸的主流开源全精度模型,同时在计算效率(内存占用、能耗、响应速度)
本地AI:Qwen3+Unsloth=2倍速+少70%显存
Qwen3 现已在 Unsloth 中进行微调 - 速度提高 2 倍,VRAM 减少 70% 大家好!现在,您可
RTX 5060 Ti 16GB:本地AI性价比之王
我对在本地运行大型语言模型 (LLM) 的可能性感到兴奋。我决定为此买一张显卡,并想分享我使用 NVIDIA RTX 5060 Ti 16GB 的初步体验。简单来说,这是我的第一张专用显卡。我之前没有任何对比数据,所以一切对我来说都比较陌生。 我在
Dynamic v2.0发布:本地跑三大开源模型!
Unsloth Dynamic v2.0 是一种超强AI模型压缩技术,专门用来让大语言模型(比如ChatGPT这类AI)变得更小、更快,但几乎不掉智商!减肥神器:原本几十GB的大模型,经过它压缩后可能只剩几GB,但性能几乎不降!加速神器:压缩后的模型跑得更快
阿里Qwen3全家桶炸场:小模型大能量
阿里千问发布超强AI大脑全家桶——Qwen 3!这次一口气放了8个型号,从迷你款(0.6B)到巨无霸(235B)全都有!
提示大模型:少推理,直接答!
最近那些超级AI(比如DeepSeek之类推理模型)变得特别会做题,秘诀就是让它们像人类一样"把思考过程写出来"。但这篇论文发现了个反常识的现象——有时候不思考反而更厉害! 神奇发现:用最新AI"深度求索-
微软推DeepSeek R1 后训练版
MAI-DS-R1 是一个 DeepSeek-R1 推理模型,经过微软 AI 团队的后期训练,旨在填补先前版本模型中的信息空白,并提升其风险状况,同时保持 R1 推理能力。该模型使用来自Tulu 3 SFT 数据集的 11 万个安全和不合规示例进行训练,此外还使用了内部开发的约 35 万个多
本地显卡跑最新AI:谷歌Gemma 3 QAT
Google新出的Gemma 3 QAT模型能让普通显卡用户也能用上顶级AI。这个经过特殊优化(QAT)的int4版本Gemma 3,把显存需求从54GB暴降到14.1GB,但效果几乎没打折。 简单说,QAT就像给AI做特训: 普通
智谱新开源GLM-4-32B媲美阿里Qwen2.5 72B
全新开源型号 GLM-4-32B,性能媲美 Qwen 2.5 72B 该模型来自 ChatGLM(现为 Z.ai)。此外,还提供推理版、深度研究版和 9B 版(共 6 个模型)。MIT 许可证。
单卡RTX 4090爆走Llama 4 Maverick
Llama 4 Maverick在单个RTX 4090上以45 tk/s的速度本地化-我终于让它工作了! 我刚刚完成了一个后续的演示,我从Meta的4000亿参数,128个专家Llama 4 Maverick中获得了每秒45个以上的令牌,我想分享完
国产小模型Qwen3暴打谷歌Gemini!
小语言模型本地AI能否干翻谷歌大模型Gemini 2.5?实测7款"野生学霸"表现! 参赛选手小模型名单: 通义千问Qwen 3 1.7B 小不点 通义千问Qwen3 4B 三好生 通义千问Qwen3 8B Q6 课代表 <
特朗普想在美国封杀DeepSeek?
《纽约时报》周三爆料:特朗普团队正琢磨着对中国AI公司DeepSeek下狠手,不仅要断供英伟达的AI芯片,还可能直接不让美国人用他家的人工智能服务。 这招明显是要在AI赛道卡中国脖子。自从DeepSeek的AI技术惊艳硅谷和华尔街,美国官员就绞尽脑汁要切断
5美分虐哭AI!开源测试让模型现原形
这个"SOLO Bench"测试有多变态! 这玩意儿是个专门折磨AI的"造句地狱"——让AI用大约4000个单词的词库,硬憋出250个句子!每个句子必须严格4个单词,还得符合特定语法格式。最狠的是:每个单词全篇只能用一次!(比如"apple"用过一
Qwen3治好了AI的"满嘴跑火车"病
我跟你们说个超神奇的事儿!Qwen3这回居然把AI乱编瞎话的老毛病给治了!我每次测试新AI都像老师抽查背书一样,专门让它背法语德语的名诗。结果你猜怎么着?这个2350亿参数的Qwen3明明个头不够大(要知道背欧洲诗歌起码得6000亿参数的大块头),还是个"偏科生"模型(MoE技术让它不能同时用全部脑
微软Phi4推理plus版数学击败DeepSeek R1
微软刚刚在 HF 上发布了基于 Phi4 架构的推理模型plus版本(Phi-4-reasoning-plus )
DeepSeek可能将开源其推理引擎
DeepSeek 即将开源其推理引擎,该引擎是基于 vLLM 的修改版本。现在,DeepSeek 正准备将这些修改回馈社区。 几周前,在"开源周"活动里,我们公开了几个代码库。没想到大家特别热情——很多人跑来一起帮忙改bug、提建议,讨论得热火朝天
上页
下页
关闭