OpenAI Q* 可通过一种自动化且可扩展的方式自我进化

OpenAI宫斗可能要归功于一项名为 Q* （Q-learning）的重大突破。

Q* 是 AGI 的前身。

Q*可能在Q-learning和预设启发式之间架起了一座巨大的桥梁：

OpenAI 也许已经找到了一种不必遇到某类型问题就能解决这类复杂问题的方法。

Q* 使 OpenAI 大型语言模型 (LLM) 能够直接处理数学和逻辑问题。LLM 以前需要使用外部计算机软件来处理数学问题。

OpenAI 可以有一种新的可改进和可扩展的学习方式。

很多人声称 Q-learning 或 RLAIF 并不新鲜这些技术可能并不新颖，但将它们结合起来，建立一个能产生显著效果的工作实施方案，这就很新颖了！同样的技术现在可以大规模应用

Q* 似乎是一个让微软有信心每年投资 500 亿美元来将解决方案扩展到 AGI 或 ASI（又名人类或超越人类智能能力）的系统。

Q-learning
Q-learning 已经存在了几十年。它只是一种基本的强化学习算法。A* 也相当古老，它是一种基于启发式的路径查找算法。

按照典型的工程设计方式，他们可能找到了这两种算法的交集，并将其命名为 Q*。这完全是推测，但如果这是一个 "突破"，这意味着 OAI 建立了一种算法，可以将高效启发式输入 Q-learning 中。这是巨大的。

学习是一条漫长的道路：机器必须完成许多小步骤才能完成更大的任务，如果这些步骤不是预先确定的，机器就会尝试许多步骤组合来实现目标。强化学习会 "强化 "最佳步骤，使机器更接近目标。想象一下一个正在尝试走路的孩子--当他试图找到平衡时，可能会摔倒很多次。

启发式是机器用来评估成功与否的标准。当你改变和改进启发式时，机器就能更好地评估成功与否。

Q* 所做的：可能是在 Q-learning 和预设启发式方法之间架起了一座桥梁。

这可能是革命性的，因为它能让机器 "预见 "下一步的最优方案，从而节省大量精力。这意味着机器可以不再追求次优方案，而只追求最优方案。机器过去所有的 "失败 "试验（例如，试图行走却摔倒了）都将转为 "成功 "试验。

现在有很多好的研究。如果你有兴趣学习这方面的知识，Q-learning 和 A* 都有大量的文献记载和研究，也是大多数大学 CS 课程的组成部分。

在过去几年中，研究团队一直在尝试使用超启发式方法来弥合这两种方法。