使用大型语言模型(LLMs)来增强和加速对 P vs NP 问题的研究,这是理论计算机科学和数学领域最重要的开放性问题之一。
具体来说,我们提出了苏格拉底式推理(Socratic reasoning)这一通用框架,以促进使用 LLMs 进行深入思考,从而解决复杂问题。苏格拉底式推理鼓励 LLM 循环发现、解决和整合问题,同时促进自我评估和完善。
我们对 P vs. NP 问题的试点研究表明,GPT-4 成功地生成了一个证明模式,并在 97 个对话回合中进行了严谨的推理,得出了 "P neq NP "的结论,这与(徐和周,2023 年)的结论一致。
这项研究在 LLMs 广泛的求解空间中发现了新的见解,为科学的 LLM 提供了启示。
论文点击标题
网友观点:
我不是大语言模型专家,但我对理论计算机科学有所了解。我无法谈论查询和对话 GPT4 程序的科学价值。但是,我想说的是,论文中关于 P 和 NP 的说法(例 1:第 3.2 节的标题 "用 GPT-4 共同证明 [P vs NP]";例 2:摘要中提到的一些交叉作者 "与(徐和周,2023 年)一致")极有可能是不正确的,应该谨慎对待。这两个证明(一个在 GPT4 的这篇论文中给出,另一个在徐和周的论文中给出)都没有涉及这个问题在解决 P vs NP 时必须遇到的已知障碍,比如在解决过程中会遇到的较弱的复杂性理论结果,或者它们如何超越已被证明不起作用的非常强大的证明技术。参见 https://scottaaronson.blog/?p=458。
相关文字:
大型语言模型:分析大语言模型理论语言能力:
最近,大型语言模型(LLMs)的性能有所提高,可以在许多语言任务中发挥出色的作用。我们在此首次证明,这些模型也能对语言数据进行连贯、有效的形式分析,并展示了大型语言模型在分析其金属语言能力方面的巨大潜力。
LLM 主要是在文本形式的语言数据上进行训练的;分析和评估它们的金属语言学能力可以提高我们对其一般能力的理解,并为语言学理论模型带来新的启示。
在本文中,我们将通过关注形式语言学的三个子领域:句法、语音和语义,来探究 GPT-4 的金属语言学能力。
我们概述了对大型语言模型进行金属语言学分析的研究计划,提出了实验设计,提供了一般指导原则,讨论了局限性,并为这一研究方向提供了未来发展方向。
这一研究方向还体现了深度学习的行为可解释性,即通过明确的提示而不是内部表征来访问模型的表征。