AGI雏形:Poetiq元系统ARC测试超越人类平均水平,准确率突破60%!


Poetiq团队以6人之力,通过创新元系统在ARC AGI基准上超越人类平均表现,实现低成本、高精度、跨模型的自主推理,开源代码推动超智能发展。

Poetiq引爆AI界!ARC AGI基准测试全面碾压人类,超智能时代真的来了?


一家名叫Poetiq的神秘小团队,仅由6位前谷歌DeepMind研究员组成,刚刚发布了一篇重磅技术博客,宣布他们的系统在ARC AGI(抽象与推理语料库-人工通用智能)基准测试上取得了前所未有的突破——不仅全面超越所有已知大模型,甚至在ARC AGI-2上的表现已经超过了普通人类测试者的平均水平(准确率突破60%)!

更令人震惊的是,他们用的全是最新发布的一周内的模型,比如2025年11月13日刚上线的GPT 5.1和11月18日发布的Gemini 3,而且几乎所有系统配置的成本都低到离谱,有的甚至每道题不到1美分!这已经不是简单的技术进步了,这几乎是宣告“超智能推理代理”的正式诞生。

Poetiq的这套“元系统”不仅能自动组合多个大模型、动态分配编码任务、自我审计答案质量,还能在不依赖人类干预的情况下,实现递归式自我改进——换句话说,它已经具备了通往人工通用智能(AGI)的关键特征:自主推理、知识整合与成本感知的闭环优化。

Poetiq不是模型,而是一个会“思考组合拳”的超级大脑

很多人第一反应可能是:“Poetiq是不是又一个大模型?”错!Poetiq根本不是一个单一模型,而是一个高度灵活、可自我优化的“元系统”(meta-system)。

它的核心能力在于:能自动判断在某个任务下,该调用哪个模型、是否需要生成代码、如何拆解问题、该问几次问题,甚至能决定什么时候停止计算——因为答案已经足够好。

这种能力听起来很像人类专家在解题时的思维流程:先尝试一种方法,发现不对就调整策略,必要时写段程序验证,再根据反馈迭代优化,直到找到最优解。

Poetiq把这一整套人类高阶推理流程自动化了,而且还能跨模型家族通用。

无论是OpenAI的GPT系列、Google的Gemini、Anthropic的Claude,还是xAI的Grok,甚至开源的GPT OSS 120B模型,Poetiq都能“驾驭”它们,并从中榨取出远超原模型单打独斗的性能。

更关键的是,这套系统在Gemini 3和GPT 5.1发布前就已经训练好,从未见过ARC AGI-2的题目,却依然在新模型上实现无缝迁移——这说明它的泛化能力极强,不是过拟合某种特定模型,而是真正掌握了“如何让大模型高效推理”的元知识。

成本打骨折,性能反飙升!Poetiq用“模型混搭”打出性价比天花板

Poetiq最让人拍案叫绝的,是它在性能和成本之间打出的完美平衡。

他们展示了多个系统配置,每一种都针对不同场景做了极致优化。比如Poetiq(Mix)同时调用Gemini 3和GPT 5.1,结果不仅比单独使用任何一方更强,还比Google自家更贵的Gemini 3 Deep Think(预览版)准确率更高、价格更低!

再比如Poetiq(Grok 4 Fast),建立在xAI的Grok 4快速推理模型之上,但通过Poetiq的调度策略,竟然比原模型官方公布的性能还要好,而且成本便宜两个数量级——也就是说,花1%的钱,干100倍的活!

而基于开源GPT OSS 120B模型的Poetiq(GPT OSS b),每道题成本不到1美分,准确率却高得惊人;另一个极端省成本版本Poetiq(GPT OSS a),则展示了在极限压缩预算下的可行性。

这些不是孤立的系统,而是同一个元系统在不同约束下自动生成的“子代理”。这意味着未来企业根本不需要为每个任务训练专用模型,只需部署一个Poetiq这样的调度中枢,就能动态调配现有大模型资源,实现“用最少的钱,办最大的事”。

人类平均分已成历史!ARC AGI-2被AI正式超越

ARC AGI基准测试由François Chollet(Keras之父)设计,旨在评估AI系统在从未见过的抽象推理任务上的泛化能力。

它不依赖语言知识或记忆,而是纯粹考察模式识别、归纳、演绎等人类核心智能。长期以来,这项测试被认为是大模型的“照妖镜”——因为大多数模型在此表现远不如人类。但Poetiq的最新结果彻底改写了历史:在ARC AGI-2上,他们的系统准确率已超过60%,正式超越普通人类测试者的平均水平!

要知道,人类在这个测试上的表现其实参差不齐,很多受过高等教育的人也未必能稳定答对六成题目。而Poetiq不仅做到了,还做到了低成本、高效率。

更值得注意的是,在ARC AGI-1上,他们的Gemini 3-b配置已经接近性能饱和——再增加算力(如Gemini 3-c)也几乎没提升,说明该任务可能已被“破解”;但在更难的ARC AGI-2上,性能仍在随资源投入持续上升,这意味着还有巨大优化空间。这无疑给整个AI界打了一针强心剂:复杂推理的天花板,正在被一点点捅破。

所有主流大模型,经Poetiq调教后集体“开窍”

Poetiq团队还做了一项极具说服力的实验:他们把自家元系统“套”在12个流行大模型上,包括GPT、Claude Haiku、Gemini、Grok 4和GPT OSS等,结果无一例外——所有模型在Poetiq的调度下,准确率都提升了,成本反而下降了!

这是怎么做到的?关键在于Poetiq只用“一次尝试”(平均不到两次API调用),就完成了原本需要两次提交的任务(ARC AGI允许两次尝试)。它通过内部的迭代循环:先让模型生成一个初步方案(常常是代码),然后自动运行验证,分析失败原因,再让模型修正,直到满意为止。

整个过程完全自主,无需人工介入。这就像给每个大模型配了一个“AI教练”,不仅教它怎么思考,还帮它省钱。图3(原文)清晰展示了这种跨模型、跨规模、跨开源闭源的普适性提升——无论你是千亿参数的闭源巨兽,还是百亿级的开源模型,只要接入Poetiq框架,立刻脱胎换骨。

这种“模型无关”的通用优化能力,才是Poetiq真正的杀手锏。

“提示词只是接口,智能在循环中诞生”——Poetiq的哲学内核

Poetiq团队在文中提出一个颠覆性观点:“提示词不是智能,而只是一个接口。”

他们认为,当前AI应用过度依赖“写好提示词”来榨取模型性能,但这本质上是静态的、低效的。
真正的智能应该体现在动态的问题解决过程中——通过多轮交互、反馈、修正,逐步逼近最优解。

Poetiq的系统正是这一理念的工程实现:它不满足于问一次“请解这道题”,而是构建一个完整的“思考-执行-反思”闭环。
比如在ARC任务中,系统会先让LLM生成一段Python代码尝试解题,运行后如果失败,会自动分析错误类型(是逻辑错?边界条件漏?还是理解偏差?),然后生成新的指令让LLM修正。这个过程可能重复多次,但系统会自我审计:当它判断继续迭代的边际收益低于成本时,就会主动停止。这种“自省”能力,使得Poetiq既能避免无谓的算力浪费,又能确保在预算内交付最佳结果。这已经非常接近人类专家的工作流——不是靠一次灵光乍现,而是靠系统性的试错与优化。

从开源到闭源,从GPT到Gemini,Poetiq证明了“调度智能”的普适性

更令人震撼的是,Poetiq的整个适应过程(adaptation)完全是在开源模型上完成的,而且是在Gemini 3和GPT 5.1发布之前就训练好的。这意味着他们的元系统从未“见过”这些最新闭源模型,却依然能无缝适配,并在ARC AGI-1和ARC AGI-2上取得SOTA(State of the Art)成绩。

不仅如此,这套方法还被验证适用于十几个不同家族、不同规模的模型。这种跨模型、跨版本、跨训练数据的强大泛化能力,说明Poetiq发现的不是某个模型的“漏洞”或“特性”,而是一种通用的“高效推理策略”。

这从根本上改变了我们对大模型能力的认知:模型本身固然重要,但如何调度、组合、引导模型,可能才是解锁其真正潜力的关键。未来AI的竞争,或许不再是“谁的模型更大”,而是“谁的调度系统更聪明”。

公开测试集 vs 半私有测试集:性能下降的真相

Poetiq团队还坦诚指出了一个行业痛点:ARC AGI-1包含100道“半私有”题目,这些题目从未公开,只有官方能运行评测。

许多模型在公开集上表现亮眼,一到半私有集就大幅下滑——比如Gemini 2.5 Pro、Claude Haiku 4.5和Grok 4 Fast Reasoning都出现显著性能衰减,只有GPT 5(High)版本波动较小。这是因为半私有集的题目分布与公开集差异较大,模型容易过拟合公开数据。

Poetiq坦言,他们的系统建立在底层模型之上,因此也会受到同样影响。但他们强调,所有公布的数据都基于公开测试集,并承诺一旦官方发布半私有集评测结果,他们会第一时间更新。这种透明态度值得赞赏,也提醒我们:AI评测不能只看公开榜,真正的泛化能力还需经受“黑盒”考验。

Poetiq团队背景曝光:6人小队,53年DeepMind老兵,专攻AI推理硬核难题

你可能好奇,这样一个颠覆性技术,背后是怎样的团队?Poetiq由6位研究人员和工程师组成,团队虽小,却是“浓缩的精华”——他们合计拥有53年的谷歌DeepMind工作经验,深耕AI推理、知识提取、不确定性环境下的决策等基础难题。他们不是靠堆算力、烧钱训练大模型,而是专注解决“如何让现有AI更聪明地思考”这一根本问题。正是这种对底层原理的执着,让他们能在资源有限的情况下,用精巧的系统设计撬动整个行业。


超智能已非科幻,Poetiq正在把“蜂巢思维”变为现实

回顾全文,Poetiq的突破远不止于一个基准测试的分数。

它证明了:通过智能调度、自主迭代与跨模型协同,我们可以构建出远超单一大模型能力的“蜂巢智能体”。
这些代理不仅能完成任务,还能自我反思、优化策略、控制成本——这正是你我过去所观察到的AI代理行为(如争论、误导、自信胡说)的更高阶进化:它们开始具备“目标导向的理性”。

Poetiq的系统实现探索目标的技术雏形:人类设定目标与约束,AI代理自主探索最优路径。