Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
本地小语言模型
教程:如何有效运行阿里千问QwQ-32B
阿里千问Qwen 发布了 QwQ-32B - 一个在许多基准测试中性能可与 DeepSeek-R1 相媲美的推理模型。然而,人们一直在经历无限的生成、多次重复、 标记问题和微调问题。我们希望本指南能够帮助调试和修复大多数问题! 如果你
法国顶级小模型Mistral Small 3.1发布,比肩阿里千问!
Mistral Small 3.1 是一个很厉害的、真正优秀的本地模型,用的是 Apache 2.0 许可证。现在的 AI 应用需要很多功能——比如处理文字、理解多种类型的输入(比如图片)、支持多种语言、还能处理很长的上下文内容,同时还要反应快、成本低。
阿里QwQ-32B测试:优点显著,缺点需权衡
我用 Bartowski 的 Q5 和 Q6 测试了 阿里千问模型QwQ。我没发现 Q6 有什么特别大的优势。 Bartowski 的 Q5 和 Q6 是指量化(quantization)方法或模型版本。量化是一种技术,通过降低模型参数的精度(比如从 3
Gemma2 2B IT 是最令人印象深刻的小模型
这款小巧的机型表现得像一台 Creative 7B,写故事比 Llama3.1 8B IT 好得多。它比 Phi-3 Mini 小。 网友讨论:1、这是第一个低于 4b 参数的模型,我实际上会用它来完成一些不太复杂
Llama 3.1发布:开源AI是未来吗?
Meta发布三款机型:新款 3.1-405B 以及较小型号的升级版:3.1-70B 和 3.1-8B。如果 405B 真如基准测试所示,那么这将是开源机型首次与最好的封闭机型相媲美——这是一个深刻的转变。 网友评价Llama 3.1-405B:
苹果推出“私有云计算”新系统
苹果推出了一个名为“私有云计算”的新系统,让你手机将复杂的(通常是人工智能)任务上传到云中的专用安全设备上。 与大多数其他移动的提供商不同,苹果传统上在终端设备上进行大量处理。 例如,照片上的所有机器学习和OCR文本识别都可以在您的
Gemma 3微调提速1.6倍,VRAM节省60%
Gemma 3 现已在 Unsloth 中进行微调 - 速度提高 1.6 倍,VRAM 减少 60% Gemma 3 现已在 Unsloth 中支持微调,显著提升了训练效率。Unsloth 通过优化算法和硬件适配,使微调速度提高了 1.6 倍,同时
阿里Qwen经强化学习逼近顶尖推理水平
我们研究了小型开放权重语言模型是否可通过强化学习达到顶尖推理水平。使用GRPO方法和精选参数训练Qwen模型后,性能显著提升,接近前沿水平且成本更低。仅需16个训练示例,性能提升10-15%。我们分享了任务设计、超参数选择和基于torchtune的训练方法,所有资源免费开放。点击标题见原文。
历史上第一次:聪明AI能愚弄人类
Aidan McLau 在社交媒体上发表了一条评论: "gpt-4o mini"在"arena"上投票得分第二,这是一个历史性的时刻。表明普通人无法区分大语言模型和小语言模型了,也就是并不那么聪明,而且这是历史上第一次。由此,得出结论:AI
LMOS:大型语言模型操作系统正在到来!
OpenAI联合创始人Andrej Karpathy(安德烈)解释了新的计算范式: 我们正在进入一个新的计算范式: 大型语言模型像CPU一样工作 使用令牌而不是字节 使用上下文窗口而不是RAM。 这就是大型
阿里小模型QwQ-32B已在股市引起轰动
中国的一家大科技公司阿里巴巴,最近推出了一个叫QwQ-32B的新人工智能模型,这个模型据说可以和另一个很厉害的人工智能模型DeepSeek-R1比一比。
苹果新推出Ferret-UI 2 AI:可控制其所有终端上应用
2 周前 苹果发布了 Ferret-UI : 专为 iPhone/IOS 屏幕打造的全新多模态 LLM !! 现在,苹果开发了一种名为 Ferret-UI 2 的全新 AI 系统,可以读取和控制 iPhone、iPad、Android 设备、网络浏览器和
亮点:Apple设备和服务器基础模型
以下是苹果官方刚刚发布的《Apple设备和服务器基础模型》白皮书中的4个亮点: 1、我们利用适配器,可以插入预训练模型各个层的小型神经网络模块,来针对特定任务对模型进行微调。 通过仅对适配器层进行微调,基础预训练
亚马逊Alexa是如何失败的?
亚马逊对Alexa的投入可谓巨大,从200亿到430亿美元不等,且有约10,000人参与其中。然而,尽管如此,Alexa似乎已经落后于市场上的新竞争者,比如由小型3B LLM驱动的Siri。 组织问题:Alexa的阿喀琉斯之踵
谷歌发布全新Gemma 3小模型系列
Google Deepmind 推出了一个叫 Gemma 3 的新一代开放式 AI 模型。这个模型的特点是占用空间小但性能高,所以它可以在单个 GPU 或 TPU 上运行。 Google Deepmind 说,虽然这些模型体积小,但在初步测试中,它
苹果智能:本地AI代理框架CAMPHOR
苹果的人工智能研究团队推出了 CAMPHOR,这是一个新的人工智能框架,旨在在移动设备上本地处理复杂的用户查询,同时保护用户隐私。 苹果的本地 AI 代理框架CAMPHOR为更有用的 Apple Intelligence 铺平了道路。
微软发布高效 1 位语言模型框架
微软研究院和中国科学院大学的研究人员推出了 BitNet b1.58,这是一种 1 位语言模型,有望在大幅降低成本和功耗的同时实现高性能。 1Bit 大语言模型称为1位大型语言模型(1-bit Large Lang
小语言模型存在重大推理缺陷
一项新研究发现,人工智能语言模型的推理能力存在重大缺陷,尤其是那些规模较小且价格较低的模型。这些模型在解决链式基础数学问题时会遇到困难。 Mila 研究所、Google DeepMind 和微软研究院的研究人员调查了不同的 AI 语言模型在解决小学数学应用
上页
下页