通用人工智能已经到来

当今最先进的人工智能模型存在许多缺陷，但几十年后，它们将被公认为通用人工智能的第一个真实例子。

什么是通用智能？
早期的人工智能系统表现出人工的狭义智能，专注于单一任务，有时执行任务的能力接近或超过人类水平。

20 世纪 70 年代，斯坦福大学特德-肖特利夫（Ted Shortliffe）开发的程序 MYCIN 只能诊断细菌感染并提出治疗建议。
SYSTRAN 只做机器翻译。
IBM 的 "深蓝 "只能下国际象棋。

后来，经过监督学习训练的深度神经网络模型，如 AlexNet 和 AlphaGo，成功地承担了机器感知和判断方面的许多任务，而这些任务长期以来一直困扰着早期的启发式、基于规则或基于知识的系统。

最近，我们看到了一些前沿模型，它们无需对每项任务进行明确的训练，就能完成各种各样的任务。这些模型在五个重要方面实现了人工通用智能：

主题：前沿模型是在数百 GB 的文本上进行训练的，这些文本来自各种互联网资源，涵盖了任何在线写作的主题。有些模型还在大量不同的音频、视频和其他媒体集合上进行训练。
任务：这些模型可以执行各种任务，包括回答问题、生成故事、总结、转录语音、翻译语言、解释、决策、提供客户支持、呼叫其他服务以采取行动，以及组合文字和图像。
模态：最流行的模式是对图像和文本进行处理，但有些系统也处理音频和视频，有些还与机器人传感器和执行器相连。通过使用特定模态标记器或处理原始数据流，前沿模型原则上可以处理任何已知的感官或运动模态。
语言：在大多数系统的训练数据中，英语所占比例过高，但大型模型可以用数十种语言进行对话，并在它们之间进行翻译，甚至对于训练数据中没有翻译示例的语言对也是如此。如果训练数据中包含代码，甚至可以支持自然语言和计算机语言之间越来越有效的 "翻译"（即一般编程和逆向工程）。
可指导性：这些模型能够进行 "情境上下文学习"，即根据提示而不是训练数据进行学习。在 "少量学习 "中，一个新任务会通过几个输入/输出对示例来演示，然后系统会给出新输入的输出。在 "零次学习 "中，系统会描述一项新任务，但不会给出任何示例（例如，"用海明威的风格写一首关于猫的诗 "或"'同义词'是指字母数目相同但彼此相反的词对。有哪些'同义词'？"）。

AGI 最重要的部分已经由当前一代先进的人工智能大语言模型实现。

通用智能"必须从多维记分卡的角度来考虑，而不是从单一的 "是/否 "命题来考虑。
然而，狭义智能与广义智能之间存在着有意义的不连续性：

狭义智能系统通常只执行单一或预定的任务，并为此接受明确的训练。即使是多任务学习，也只能产生狭义智能，因为模型仍在工程师设想的任务范围内运行。事实上，开发狭义人工智能所涉及的大部分艰苦工程工作都是对特定任务数据集进行整理和标注。
相比之下，前沿语言模型可以胜任几乎所有人类可以完成的信息任务，可以使用自然语言提出问题和回答问题，并且具有可量化的性能。

对于通用人工智能来说，语境上下文学习能力是一项特别有意义的元任务。上下文学习将任务范围从训练语料中观察到的任何事物扩展到可以描述的任何事物，这是一个很大的提升。

通用人工智能模型可以执行设计者从未设想过的任务。

那么为什么不愿承认 AGI？
根据这两个词的日常含义，前沿模型已经达到了相当高的通用智能水平。然而，在我们看来，大多数评论者都不愿意这么说，主要有四个原因：

对 AGI 的度量持健康的怀疑态度
对替代性人工智能理论或技术的意识形态承诺
执着于人类（或生物）的特殊性
对人工智能经济影响的担忧

衡量标准
1、关于 AGI 的门槛在哪里，存在着很大的分歧。

穆斯塔法-苏莱曼（Mustafa Suleyman）建议改用 "人工智能能力"（Artificial Capable Intelligence）一词，他提议用 "现代图灵测试 "来衡量：在网上快速赚取一百万美元的能力（初始投资 10 万美元）。能够直接创造财富的人工智能系统肯定会对世界产生影响，不过将 "有能力 "等同于 "资本主义 "似乎值得怀疑。

我们有充分的理由对某些指标持怀疑态度。当人类通过一场精心设计的法律、商业或医学考试时，我们假定人类不仅能胜任考试中的具体问题，还能胜任一系列相关问题和任务，更不用说人类普遍具备的广泛能力了。但是，在训练前沿模型通过此类考试时，训练往往是狭隘地针对考试中的具体问题类型进行的。

今天的前沿模型当然不完全有资格成为律师或医生，尽管他们可以通过这些资格考试。古德哈特定律 指出"当一项措施成为目标时，它就不再是一项好的措施"。

我们需要更好的测试，而且有很多工作正在进行中，例如斯坦福大学的测试套件 HELM（语言模型整体评估）。

2、同样重要的是，不要将语言流畅与智能混为一谈。
前几代聊天机器人，如 Mitsuku（现名 Kuki），偶尔会突然改变主题，重复一段连贯的文字，从而骗过人类评委。目前的前沿模型会即时生成回复，而不是依赖预制文本，而且它们更善于紧扣主题。但它们仍然受益于人类的自然假设，即流畅、符合语法的回答很可能来自一个智能实体。我们把这称为 "尚西-加德纳效应"，取自《身临其境》中的主人公--尚西之所以被人认真对待，完全是因为他看起来就像一个应该被认真对待的人。

研究人员雷兰-谢弗（Rylan Schaeffer）、布兰多-米兰达（Brando Miranda）和桑米-科耶乔（Sammi Koyejo）指出了常见人工智能性能指标的另一个问题：它们是非线性的。

考虑一下由一系列五位数算术问题组成的测试：

小模型会把所有这些问题都答错，但随着模型规模的扩大，会出现一个临界阈值，过了这个阈值，模型就会把大部分问题都答对。
这使得评论家们说，算术技能是足够大的前沿模型的一个涌现属性。

但是，

如果测试中也包括一至四位数的算术问题，而且部分数字的正确率会得到部分奖励，
那么我们就会发现，随着模型规模的扩大，成绩会逐渐提高；

其实并不存在一个临界值。

这一发现使人们对超级智能能力和特性（可能包括意识）可能会突然神秘地 "出现 "这一观点产生怀疑，而这正是一些公民和决策者所担心的。(有时，同样的说法也被用来 "解释 "为什么人类有智慧，而其他类人猿却没有；实际上，这种不连续性可能同样是虚幻的）。

更好的衡量标准显示，通用智能是连续的：
"多则多"，而不是 "多则不同"。
（不存在“量变到质变”，这句话本身就是人类幻觉）

替代理论
AGI 的前身包括许多相互竞争的智能理论，其中一些在较窄的领域取得了成功。

计算机科学本身是以具有精确定义的形式语法的编程语言为基础的，它在一开始就与 "老式人工智能"（GOFAI）紧密结合在一起。

GOFAI的信条至少可以追溯到17世纪的德国数学家戈特弗里德-威廉-莱布尼兹（Gottfried Wilhelm Leibniz），艾伦-纽厄尔（Allen Newell）和赫伯特-西蒙（Herbert Simon）的 "物理符号系统假说"（physical symbol system hypothesis）就是其典范。

起初，像英语这样的自然语言似乎就是这样的系统，"chair "和 "red "这样的符号代表着 "chair-ness "和 "red-ness "这样的概念。
符号系统允许陈述：

"The chair is red椅子是红色的"

以及逻辑推理：

"If the chair is red then the chair is not blue.如果椅子是红色的，那么椅子就不是蓝色的"。

虽然这看起来很合理，但用这种方法建立起来的系统总是很脆弱，在功能和通用性方面受到限制。

主要问题有两个：

首先，像 "蓝色"、"红色 "和 "椅子 "这样的术语只有近似的定义，而且随着使用这些术语执行任务的复杂性增加，这些模糊性的影响也会变得更加严重。
其次，只有极少数逻辑推论是普遍有效的；一把椅子可能是蓝色的，也可能是红色的。从根本上说，大量的思维并不能简化为对逻辑命题的操作。

这就是为什么几十年来，将计算机编程和语言学结合在一起的共同努力未能产生任何类似 AGI 的东西。

宗教信条
然而，一些对符号系统或语言学有着意识形态承诺（教条主义）的研究人员仍然坚持认为：他们的特定理论是通用智能的必要条件，而神经网络或更广义的机器学习，在理论上是无法实现通用智能的--尤其是如果它们纯粹是在语言基础上训练出来的。

在 ChatGPT 之后，这些批评者的声音越来越大。

例如，被公认为现代语言学之父的诺姆-乔姆斯基（Noam Chomsky）在谈到大型语言模型时写道："我们从语言学和知识哲学中了解到，它们与人类推理和使用语言的方式大相径庭。这些差异对这些程序的功能造成了极大的限制，使它们带有不可磨灭的缺陷"。

认知科学家、当代人工智能批评家加里-马库斯（Gary Marcus）说，前沿模型 "正在学习如何听起来和看起来像人类。但它们实际上不知道自己在说什么或做什么。"

马库斯承认神经网络可能是 AGI 解决方案的一部分，但他认为，"要建立一个强大的、知识驱动的人工智能方法，我们的工具包里必须有符号操纵机制"。

马库斯（以及其他许多人）一直专注于寻找前沿模型能力上的差距，尤其是大型语言模型，并经常声称这些差距反映了该方法的根本缺陷。

这些批评者认为，如果没有明确的符号，仅仅通过学习、"统计 "的方法是无法产生真正的理解的。与此相关的是，他们声称，没有符号概念，就不会有逻辑推理，而 "真正的 "智力需要这种推理。

抛开智能是否总是依赖符号和逻辑的问题不谈，我们有理由质疑神经网络和机器学习的不足，因为神经网络在做任何计算机能做的事情方面都是如此强大。

例如：

神经网络可以轻松学习离散或符号表示，并在训练过程中自然出现。
先进的神经网络模型可以将复杂的统计技术应用到数据中，使其能够根据给定数据做出接近最优的预测。这些模型可以学习如何应用这些技术，并为特定问题选择最佳技术，而无需明确告知。
将多个神经网络以正确的方式堆叠在一起，就能产生一个能进行与任何给定计算机程序相同计算的模型。
给定任何计算机都能计算的任何函数的输入和输出示例，神经网络就能学会近似该函数。(这里的 "近似 "是指，从理论上讲，神经网络的准确度可以超过任何你想达到的水平，例如 99.9% 的正确率）。

以测试证据为准绳
对于每一种批评，我们都应该问一问它是规范性的还是经验性的。

规范性批评会认为"为了被视为 AGI，一个系统不仅要通过这个测试，还必须以这种方式构建。我们会反驳规范性批评，理由是测试本身就足够了--如果不够，就应该修改测试。
另一方面，经验主义的批评则认为："我不认为你能让人工智能以这种方式工作--我认为以另一种方式工作会更好"。这样的批评有助于确定研究方向，但事实胜于雄辩。如果一个系统能通过精心设计的测试，它就会自动战胜批评。

近年来，针对与 "智力"、"知识"、"常识 "和 "推理 "相关的认知任务设计了大量测试。

这些测试包括一些新颖的问题，这些问题不能通过记忆训练数据来回答，而是需要概括：当我们用学生在学习过程中没有遇到过的问题来测试他们的理解力或推理能力时，我们要求学生提供同样的理解力证明。
复杂的测验可以引入新的概念或任务，以测试应试者的认知灵活性：即即时学习和应用新思想的能力。(这就是情境学习的精髓）。

人类（或生物）例外论
只要怀疑论者不为度量标准所动，他们就可能不愿意接受任何关于 AGI 的经验证据。这种不情愿可能是出于维护人类精神特殊性的愿望，就像人类一直不愿接受地球不是宇宙的中心，智人不是 "伟大存在链 "的顶峰一样。诚然，人类有其特殊之处，我们应该为此庆祝，但我们不应将其与一般智慧混为一谈。

有时有人会说，任何可以算作 AGI 的东西都必须有意识、有能动性、有主观感知或感觉。
有一种推论是这样的：

一个简单的工具，比如螺丝刀，显然是有用途的（用来拧螺丝），但不能说它本身具有能动性；
相反，任何能动性显然都属于工具制造者或工具使用者。
螺丝刀本身 "只是一个工具"。

同样的道理也适用于经过训练来执行特定任务的人工智能系统，如光学字符识别或语音合成。

不过，具有人工通用智能的系统则更难被归类为单纯的工具。前沿模型的技能超出了程序员或用户的想象。此外，由于 LLM 可以在语言的提示下执行任意任务，可以用语言生成新的提示，甚至可以自我提示（"思维链提示"），因此前沿模型是否以及何时具有 "代理权 "的问题需要更仔细的考虑。

考虑一下苏莱曼的 "人工智能 "为了在网上赚取一百万美元可能会采取的许多行动：

它可能会研究网络上的流行趋势，找出亚马逊市场上的热门产品和冷门产品；
生成一系列可能的产品图片和蓝图；
将其发送给在阿里巴巴上找到的代发货制造商；
来回发送电子邮件以完善要求并商定合同；
设计卖家的列表；并根据买家反馈不断更新营销材料和产品设计。

正如苏莱曼指出的那样，前沿模型原则上已经能够完成所有这些工作，而能够可靠地规划和执行整个操作的模型很可能即将出现。这样的人工智能看起来不再像螺丝刀。

诚然，人类有其特殊之处，我们应该为此庆祝，但我们不应将其与通用智能混为一谈。

在将关于 AGI应该是什么和它是什么的争论混为一谈时，我们违反了大卫休谟的禁令：必须尽最大努力将“是”与“应该”这两个问题分开。

​​​​​​​通用人工智能已经到来

通用人工智能已经到来