阿里通义千问3 Max正式上线,以55分登顶非推理模型智商榜首,多项能力全面跃升,但输出更“话痨”,仍坚守文本赛道。
阿里巴巴旗下的通义实验室正式宣布:通义千问3 Max(Qwen3 Max)全面上线,进入通用可用(GA)阶段!
在权威的“人工分析智能指数”(Artificial Analysis Intelligence Index)中,它的得分一口气从49飙升到55分,直接超越此前排名第一的月之暗面Kimi K2 0905(得分50),成为当前全球最聪明的非推理大模型! (最聪明的推理大模型是:DeepSeek V3.1 Terminus智压群雄登顶开源模型之王 )
先别急着划走,我知道很多人一听“非推理模型”就退了。简单说,就是这类模型不会像人类那样一步步拆解问题、反复推演、自我验证。它更像是一个超级学霸,靠海量知识和模式匹配直接“输出答案”,速度极快,但缺乏“思考过程”。而通义千问3 Max,就是这个赛道里的“卷王之王”!
这次升级到底有多猛?首先,最核心的“智力值”暴涨6分,达到55分!要知道,在AI模型的世界里,每提升1分都难如登天,更何况是6分的跨越式进步。这意味着什么?意味着它在理解复杂指令、处理模糊语义、整合多源信息等方面,已经甩开同类产品一大截。以前可能需要你反复追问才能得到的答案,现在它一次就能精准命中,效率直接拉满!
更关键的是,通义千问3 Max已经从“预览版”(Preview)正式迈入“通用可用”(GA)阶段!这意味着什么?意味着阿里对它的稳定性、安全性、性能表现已经完全有信心,可以大规模开放给企业和开发者使用了。不再是实验室里的“花瓶”,而是能真正扛起业务重担的“生产力工具”!
当然,光说“聪明”太虚,咱们得看实打实的能力提升。这次通义千问3 Max在三大核心维度实现了全面突破:
第一,智能体工具调用能力(²-Bench Telecom)从33%狂飙到74%!啥意思?就是它现在能更聪明地“调用外部工具”来帮你办事。比如你想查航班、订酒店、分析股票,它不再只是干巴巴地告诉你“你可以去某某网站查”,而是能直接调用相关API,一步到位给你结果。这种“动手能力”的飞跃,让它离真正的“AI助手”又近了一大步。
第二,编程能力(LiveCodeBench)从65%提升到77%!对于程序员朋友来说,这简直是福音。无论是写Python、Java,还是调试复杂逻辑,通义千问3 Max现在都能更准确地理解你的需求,生成高质量、可运行的代码。甚至还能帮你优化算法、解释报错,妥妥的“赛博同事”。
第三,长上下文推理能力(AA-LCR)从40%提升到47%!虽然它还是“非推理模型”,但在处理超长文本时,比如读完整本小说、分析几十页的财报、梳理上百条会议纪要,它的信息提取和关联能力明显更强了。再也不用担心它“看了后面忘了前面”,关键细节一个都不会漏!
不过,硬币总有两面。这次升级也带来一个“甜蜜的烦恼”——它变得更“话痨”了!跑一次人工分析智能指数测试,通义千问3 Max(GA版)输出了约2100万token,比预览版多用了整整700万!这说明它在回答问题时更倾向于“展开讲讲”,提供更详尽的背景、更多样化的视角。虽然信息量更大,但如果你追求极致简洁,可能需要手动“修剪”一下。不过阿里也强调,即便如此,它的输出长度仍远低于真正的推理模型(比如那些会一步步写“思考链”的AI),在效率和深度之间找到了一个非常巧妙的平衡点。
说到模型定位,通义千问3 Max依然是一个纯文本模型,不支持图片、音频、视频等多模态输入输出。它的战场,就在文字的海洋里。同时,它依然是闭源的——阿里没有公开模型权重,这意味着普通开发者无法本地部署或微调,只能通过阿里云或通义app调用API。这也符合阿里一贯的商业化策略:核心大模型作为云服务的核心竞争力,牢牢掌握在自己手中。
在技术参数上,通义千问3 Max支持高达25.6万token的上下文窗口!这意味着它能一次性“吃下”一本中等厚度的小说,或者几十份技术文档,进行整体理解。对于需要处理超长文本的企业级应用,比如法律合同分析、学术文献综述、客服对话历史追踪,这个能力简直是刚需。
价格方面,阿里给出了非常清晰的定价:输入每百万token 1.2美元,输出每百万token 6美元。这个定价策略其实很有讲究——输出价格是输入的5倍,显然是在鼓励用户“少问多答”,或者说,模型认为自己生成的内容价值远高于用户输入的提示词。对于高频调用的企业客户来说,这是一笔需要精打细算的成本。
目前,通义千问3 Max已经全面上线通义app(也就是大家熟悉的“通义”)和阿里云百炼平台。无论你是普通用户想体验最强中文AI,还是企业开发者想集成到自己的产品中,现在都能立刻用上。
值得一提的是,阿里已经明确表示,正在紧锣密鼓地训练“通义千问3 Max-思考版”(Qwen3-Max-Thinking),也就是真正的推理模型。这意味着,今天的通义千问3 Max,可能只是阿里AI帝国的“前哨战”,更强大的“思考型AI”已经在路上。可以预见,未来的AI战场,将不仅是“知识量”的比拼,更是“思维深度”的较量。
那么,通义千问3 Max到底适合谁用?如果你需要一个反应快、知识广、能写代码、会调工具、还能处理超长文本的AI助手,但又不需要它展示“思考过程”,那么它绝对是目前非推理模型中的最优解。尤其在企业服务、内容创作、编程辅助、数据分析等场景,它的综合性价比极高。
当然,如果你追求的是像人类一样层层递进、自我纠错、多角度验证的“深度思考”,那还是得等它的“思考版”兄弟。但就目前而言,通义千问3 Max已经用55分的智商,重新定义了“非推理模型”的天花板。
最后,简单介绍一下背后的力量——通义实验室。作为阿里巴巴集团旗下的AI研发核心团队,通义实验室近年来持续推出通义千问(Qwen)系列大模型,从开源的Qwen-Max、Qwen-Plus到闭源的Qwen-Max(即本文主角),覆盖了从轻量级到超大规模的全栈能力。团队不仅在中文场景深耕,也在国际权威榜单上屡创佳绩,是中国AI力量走向世界的重要代表。
总而言之,通义千问3 Max的这次升级,不是小修小补,而是一次全方位的能力跃迁。它用更高的智商、更强的工具调用、更优的长文本处理,巩固了自己在非推理模型领域的王者地位。
虽然它变得更“啰嗦”了,但这份“啰嗦”背后,是更丰富的信息量和更周全的服务意识。在推理模型尚未完全成熟的今天,通义千问3 Max无疑为市场提供了一个高效、可靠、聪明的“中间选项”。