本地小语言模型 - 第4页

Mistral Small 3.1 是一个很厉害的、真正优秀的本地模型，用的是 Apache 2.0 许可证。现在的 AI 应用需要很多功能——比如处理文字、理解多种类型的输入（比如图片）、支持多种语言、还能处理很长的上下文内容，同时还要反应快、成本低。

这是Gemma 3 27b vs. 阿里千问QwQ 32b vs. Mistral 24b vs. Deepseek r1测试。上周，谷歌和Mistral公司分别发布了两个新的人工智能模型，叫做

两款支持大模型本地开发和云部署的新AI计算机发布：华硕推出了Ascent GX10 AI超级计算机，搭载NVIDIA GB10 Grace Blackwell超级芯片，性能强大，支持高达1,000 TOPS的AI处理能力和128GB内存，适合处理大型AI模型。英伟达

BitNet b1.58 2B4T是微软研究院开发的第一个开源、纯1比特大语言模型（LLM），规模达到20亿参数。它用4万亿个token训练而成，证明了纯1比特的大语言模型性能可以媲美同尺寸的主流开源全精度模型，同时在计算效率（内存占用、能耗、响应速度）

阿里千问发布超强AI大脑全家桶——Qwen 3！这次一口气放了8个型号，从迷你款（0.6B）到巨无霸（235B）全都有！

Gemma 3 现已在 Unsloth 中进行微调 - 速度提高 1.6 倍，VRAM 减少 60% Gemma 3 现已在 Unsloth 中支持微调，显著提升了训练效率。Unsloth 通过优化算法和硬件适配，使微调速度提高了 1.6 倍，同时

Unsloth Dynamic v2.0 是一种超强AI模型压缩技术，专门用来让大语言模型（比如ChatGPT这类AI）变得更小、更快，但几乎不掉智商！减肥神器：原本几十GB的大模型，经过它压缩后可能只剩几GB，但性能几乎不降！加速神器：压缩后的模型跑得更快

Google新出的Gemma 3 QAT模型能让普通显卡用户也能用上顶级AI。这个经过特殊优化（QAT）的int4版本Gemma 3，把显存需求从54GB暴降到14.1GB，但效果几乎没打折。简单说，QAT就像给AI做特训：普通

附完整测试数据+避坑指南 1️⃣ 量化王者：Unsloth版（0.371分）最接近原版BF16模型（0.375分）Bartowski Q4_0（0.352分）速度最快，性价比之选 2️⃣ 意外翻车

在开始用GeForce RTX 5090的计算性能做NVIDIA Blackwell Linux测试时，除了上周发布的所有CUDA/OpenCL/OptiX基准测试，很多读者还问了AI性能，特别是RTX 5090旗舰显卡在Llama.cpp里的表现。下面是一些初步的基准测试，比较了GeFor

前几天我试用了新出的Qwen3-30B大模型，在Ollama上跑得跟蜗牛爬似的！气得我直接换了LM Studio这个软件，结果我的RTX4090显卡直接起飞了，每秒能处理100多个词，快得跟开了挂一样！经过一顿猛如虎的测试后，我激动得差点从椅子上摔下来—

我们最初提供的是Deepseek-v3-03241.58 位版本，您仍然可以使用，但其输出效果不是最好的。因此，我们发现有必要通过增加向下项目大小来升级到 1

谷歌认为自家Gemma 3是“世界上最好的单加速器模型”，在单个 GPU 上比 Facebook 的 Llama、DeepSeek和 OpenAI 的模型都强，而且在

Gemini 2.5-Pro最牛的不是写代码多厉害！是它能像吃了记忆面包一样——哪怕你哔哔叭叭说上三天三夜，它每个字都记得门儿清！说人话就是：终于不用像以前聊15分钟就失忆重启了，现在能像打游戏存档一样一直玩下去！（突然激动）求求谷歌把《双城之战》里那种黑科技传给Gemini啊！ <

Phi-4-reasoning是一种最先进的开放权重推理模型，它是在Phi-4的基础上进行微调的，使用的是对思想链跟踪和强化学习数据集的监督微调。 Phi-4推理小能手就像你们班那个数学突然开窍的同学——本来是个普通学生（Phi-4基础版），但老师给他吃了

微软研究人员表示，他们已经开发出一种可在 CPU 上运行的超高效 AI 模型微软的研究人员说，他们造出了目前为止最大的“1比特”人工智能模型，这个模型也叫“bitnet”。这个模型叫 BitNet b

随着训练数据增加，模型量化需更高精度（如2位→3位）。8位通常够用，但长训练可能饱和。微软Bitnet模型理论高效（低比特硬件优势），但缺乏支持，训练成本高。谷歌Ge

家人们！刷到个超硬核的招聘！MoAIJobs刚po的——惠普家的AI特种部队'HP IQ'在旧金山招人啦！重点来啦！招的是'机器学习特种兵'，专门研究怎么把AI塞进手机电脑这些小设备里！