比尔盖茨:元认知将是AI下一个前沿


比尔-盖茨说,人工智能系统的扩展还需要两次迭代,之后的下一个重要领域是元认知(metacognition),即人工智能可以对其任务进行推理。

盖茨在采访中说了一些关于元认知的有趣话:“我看到我们明年会在这方面取得进展,但之后的一段时间内我们无法完全解决这个问题。”

比尔:
最大的前沿领域并不是扩展。
我们在扩展方面可能还需要再转两圈曲柄,并在合成数据方面取得非常好的成绩,我们可能还能再扩展两倍。
这不是最有趣的层面。

最有趣的层面是我所说的元认知,即理解如何从广义上思考问题

也就是说:

  • 这个答案有多重要?
  • 我如何检查我的答案?
  • 有哪些外部工具可以帮助我解决这个问题?

如今的整体认知策略是如此琐碎,它只是通过不断的计算按顺序生成每个标记,而这种方法竟然还能奏效,实在令人震惊。

它不会像人类一样先后退一步,然后整体想 "好吧,我要写这篇论文,我想写的是这个。我要把一些事实写进去。下面是我想做的总结"。

因此,当你遇到各种数学问题,比如数独谜题时,你就会发现这种限制,因为只要先生成左上角的东西,就会导致超过一定复杂度的问题都会出错。(即人工智能可能会陷入局部最优解,而无法找到全局最优解。这是对应于缺乏对整体的深入理解和规划能力。)

因此,我们将获得规模上的优势,但与此同时,改变底层推理算法的各种行动,从我们现在拥有的普通推理算法到更像人类的元认知,这才是大前沿。

现在还很难预测这一切会以多快的速度发生。我看到明年我们会在这方面取得进展,但之后一段时间内我们还无法彻底解决这个问题。

所以,你的天才会变得更容易预测。

现在,在某些领域,在一些封闭的领域,我们已经能够在一些数学甚至一些健康类型的领域显示出极高的准确性,但开放性的东西需要在元认知方面取得普遍的突破。

网友讨论:
1、除非AI具备某种元认知,否则它们不会擅长数学

2、比尔否定了合成数据的潜力,他是错误的:

  • Abacus Embeddings,对位置嵌入进行简单调整,使 LLM 能够进行加法、乘法、排序等。我们仅针对 20 位加法进行训练的 Abacus Embeddings 几乎完美地推广到 100 多位:   https://x.com/SeanMcleish/status/1795481814553018542
  • Anthropic 的产品负责人 Michael Gerstenhaber 表示,这些改进是架构调整和新训练数据(包括 AI 生成的数据)的结果。具体是哪些数据?Gerstenhaber 不愿透露,但他暗示 Claude 3.5 Sonnet 的大部分优势都来自这些训练集。
  • 大模型不再只是“在互联网上接受培训”:https://allenpike.com/2024/llms-trained-on-internet 
  • 新的高质量数据集:https://huggingface.co/spaces/HuggingFaceFW/blogpost-fineweb-v1 
  • 经过合成训练的 7B 数学模型在数学上击败了 64 发 GPT4:https://x.com/_akhaliq/status/1793864788579090917 ?s=46&t=lZJAHzXMXI1MgQuyBgEhgA
  • 研究人员表明,通过在训练集中保留旧的人类数据和新的合成数据,可以轻松避免模型崩溃:https://arxiv.org/abs/2404.01413 
  • 通过合成任务教授语言模型以减少幻觉:https://arxiv.org/abs/2310.06827  ?darkschemeovr=1
  • 在 Midjourney 图像上训练的稳定扩散 lora:https://civitai.com/models/251417/midjourney-mimic 
  • IBM 关于合成数据:https://www.ibm.com/topics/synthetic-data  
  • 数据质量:与现实世界的数据不同,合成数据消除了处理现实世界中正在编译的数据时可能出现的不准确性或错误。如果提供适当的变量,合成数据可以提供高质量和平衡的数据。人工生成的数据还能够填充缺失值并创建标签,从而为您的公司或企业提供更准确的预测。  
  • 合成数据可能比真实数据更好:https://www.nature.com/articles/d41586-023-01445-8
  • 使用合成字幕和图像嵌入增强视觉语言模型:https://arxiv.org/pdf/2403.07750 
     我们的方法采用预训练的文本到图像模型,从 LLM 生成的字幕合成图像嵌入。尽管文本到图像模型和 VLM 最初是在相同数据上进行训练的,但我们的方法利用图像生成器创建新颖构图的能力,从而生成超出原始数据集限制的合成图像嵌入。大量实验表明,我们在合成数据上进行微调的 VLM 实现了与仅在人工注释数据上训练的模型相当的性能,同时所需的数据却少得多。此外,我们对字幕进行了一系列分析,结果表明语义多样性和平衡性是提高下游性能的关键方面。最后,我们表明在图像嵌入空间中合成图像比在像素空间中合成图像快 25%。我们相信,我们的工作不仅解决了 VLM 训练中的重大挑战,而且为开发自我改进的多模式模型开辟了有希望的道路。
  • 模拟可以很好地转移到现实生活中:https://arxiv.org/abs/2406.01967v1
  • 合成数据质量研究:https://arxiv.org/pdf/2210.07574 
    “我们系统地研究了当前最先进的文本到图像生成模型的合成数据是否适用于图像识别。我们大量的实验表明,合成数据有利于零样本和少样本识别中的分类器学习,带来显著的性能提升并产生新的最先进的性能。此外,当前的合成数据显示出模型预训练的巨大潜力,甚至超过了标准的 ImageNet 预训练。我们还指出了将合成数据应用于图像识别的局限性和瓶颈,希望激发未来在这方面的更多研究。”
  • AlphaGeomertry 超越了解决几何问题的最先进方法,推动了数学 AI 推理的发展:https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/


3、在我看来,人工智能非常擅长追赶,进步速度惊人。但追赶现状比突破界限更容易。

从现在开始,人工智能将以发现过程、实验室实验和反馈学习允许的速度发展。这意味着寻找新发现将变得更加困难,难度呈指数级增长。当然会这样,因为唾手可得的果实早就被摘走了。

比尔盖茨说的和我所说的有关——多模态、缩放和合成数据仍有发展空间。但真正的困难在于知识的边界,你无法在任何书本中找到答案。

他说人工智能需要元认知,我认为它需要向世界学习。我们也不像我们声称的那样聪明,我们在外面的世界发现事物,随着时间的推移和人口的增加,我们达到了目前的水平。但进步的引擎是从外部学习,而不是直接从大脑中合成想法。世界的丰富性使我们能够学到很多东西并进化到我们的水平。

4、美国在 7 纳米以下芯片和前沿人工智能研究实验室方面具有明显优势,这应该意味着美国在未来几年将继续在人工智能领域占据主导地位。但中国更擅长快速建设能源,包括可再生能源和核能。因此,也许会有一个交叉点,中国的能源优势最终会让它在这场人工智能军备竞赛中获胜。这显然对中美之间正在进行的安全竞争有着重大影响。

5、我完全同意这是 LLM 所缺失的部分。当你要求人类解决一个问题时,他们会说“好的,让我考虑 20 分钟,然后再回复你”。然后他们可以得出新的结论,评估它正确的可能性等等。

如果这是一个简单的问题,他们可以直接回答。而 LLM 只是被迫对每个问题使用相同的计算输出下一个标记。所以虽然我认为 LLM 可以做令人印象深刻的事情并且走得很远,但它并不是智能系统的最终状态,因为它目前不进行这种动态推理。推理部分缺少改进。

这些实际是思路链的作用,而且它很有效。 

6、模型每次生成下一个单词时都会进行元认知。只是因为它不明确,所以没有被发现。