阿里千问发布超强AI大脑全家桶——Qwen 3!这次一口气放了8个型号,从迷你款(0.6B)到巨无霸(235B)全都有!
图中各项评分显示: 4b小模型直接吊打gemma 3 27b 、DeepSeek v3和 4o
重点来了:
- 旗舰模型Qwen3-235B-A22B直接封神!写代码、解数学题、聊天全能打,把DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro这些前辈大佬全比下去了!
- 小模型也有大能量(阿里千问最大特点):30B-A3B型号只用1/10的“脑细胞”就干翻了隔壁32B的AI;更离谱的是4B小不点,性能居然追上自家前代72B大哥!
小模型更加适合本地部署运行,阿里小模型是众多网友最关注的重点:其小MoE模型Qwen3-30B-A3B的激活参数量是QwQ-32B的10倍,即使是像Qwen3-4B这样的微型模型,其性能也能与Qwen2.5-72B-Instruct相媲美。
后训练模型(例如Qwen3-30B-A3B)及其预训练模型(例如Qwen3-30B-A3B-Base)现已在Hugging Face、ModelScope和Kaggle等平台上线。
- 对于部署,建议使用SGLang和vLLM等框架。
- 对于本地运行,强烈推荐使用Ollama、LMStudio、MLX、llama.cpp和KTransformers等工具。这些选项确保用户可以轻松地将 Qwen3 集成到他们的工作流程中,无论是在研究、开发还是生产环境中。
开放两个 MoE 模型的权重:
- Qwen3-235B-A22B是一个大型模型,总参数量达 2350 亿,激活参数量达 220 亿;
- Qwen3-30B-A3B是一个较小的 MoE 模型,总参数量达 300 亿,激活参数量达 30 亿。
- 此外,六个密集模型也已开放权重,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B,它们均遵循 Apache 2.0 许可证。
现在就能在Qwen官网/APP免费玩,代码已开源(GitHub/HF/ModelScope随便薅)!快来试试这波王炸更新!
特点:
MoE 推理器参数范围从 .6B 到 235B(22 个活跃)
顶级 Qwen(253B/22AB)在编码和数学方面击败或匹敌顶级模型!
迷你Baby Qwen 4B 简直是猛兽!其 ELO 等级分高达 1671。性能与 Qwen2.5-72b 相当!
混合思维模型 - 可以打开或关闭思考(通过用户消息!不仅在 sysmsg 中!)
️ 模型中的 MCP 支持 - 经过训练可以更好地使用工具
多语言 - 支持多达 119 种语言
开箱即用支持 LMStudio、Ollama 和 MLX(正在下载)
Base 和 Instruct 版本均已发布
来源:
- 博客:https://qwenlm.github.io/blog/qwen3/
- GitHub:https://github.com/QwenLM/Qwen3
- 型号:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
- X帖子:https://x.com/alibaba_qwen/status/1916962087676612998?s=46
- Qwen3 on Ollama
网友:
“4B打72B?这波是蚂蚁啃大象!”
“235B:在座的各位都是弟弟~”
Qwen3暴打Llama
这个基准测试会让我相信所有这些小的免费模型在包括编码在内的所有方面都比gpt-4 o好?这排名也太假了吧?!这些测试搞得好像免费小模型啥都比GPT-4o强,连写代码都更牛?——我亲自试过,Qwen写代码跟智障似的,被GPT-4o吊起来打!”
使用Qwen 3 - 30 B-A3B比Qwen 3 - 32 B型号有什么好处?
- 快速推理,Qwen 3 - 30 B-A3 B只有3B个有效参数,应该比Qwen 3 - 32 B快得多,同时具有类似的输出质量
- A3B代表3B有效参数。从3B参数推断比从32B推断要快得多。
- 可以获得与Qwen 2.5- 32 B类似的性能,而只有3B活动参数,速度快5倍。
LLaMA 4的脑残粉还在吗?不会真有人折腾那破玩意儿吧?早点认清现实吧!别被PUA了,该脱粉了兄弟们!