最新预印本:在图灵测试中,人们无法将 GPT-4 与人类区分开来。
- 在预先注册的图灵测试中,我们发现 GPT-4 有 54% 的时间被判定为人类。
这篇论文来自加州大学圣地亚哥分校的认知科学系:讨论了在图灵测试中,人们是否能够区分GPT-4(一种先进的人工智能语言模型)和人类。
研究者招募了 500 名参与者,通过随机对照的图灵测试评估了三个系统:ELIZA、GPT-3.5和GPT-4。
- 在测试中,人类参与者与一个人类或AI进行了5分钟的对话,并判断他们的对话伙伴是否为人类。
- GPT-4被判断为人类的比例为54%,超过了ELIZA的22%,但低于人类的67%。
研究还指出,GPT-4的结果对关于机器智能的辩论具有意义,并更紧迫地表明,当前AI系统的欺骗行为可能无法被检测到。通过分析参与者的策略和推理,研究表明,在通过图灵测试方面,风格和社交情感因素比传统的智能概念扮演了更大的角色。
这些发现更重要的含义是:人们在经过 5 分钟的对话后,无法可靠地判断当前的人工智能模型是否是人类。
这篇论文还讨论了图灵测试的历史、不同AI模型的评估、游戏设置、结果分析、讨论以及可能的缓解欺骗的方法。此外,它还包括了参与者的策略和原因分类、统计分析、以及对AI证人的构建和界面设计的详细说明。
网友讨论:
1、图灵测试54% 没什么大不了的。 2011 年,Cleverbot 获得了 59% 的份额。而人类只得分了63%。这真是个老新闻了。我曾经使用过 Cleverbot,但它很难理解我想说的话。这表明这个测试并不能很好地衡量人工智能的智能程度。
2、“图灵测试”现在已经是一个毫无意义的词了。我可以很容易地区分人工智能与哲学问题、有关人类感觉(视觉、嗅觉)、一些数学等的问题。
3、图灵测试就是图灵测试。你无法否认这一点。这些是官方球门柱。
什么是图灵测试?
图灵测试(Turing Test)是由英国数学家、逻辑学家、密码学家艾伦·图灵(Alan Turing)在1950年提出的一个思想实验。图灵测试的目的是为了判断机器是否能够展现出与人类不可区分的智能行为。这个测试通常包括三个参与者:一个人类裁判、一个真实的人类以及一个人工智能(AI)。
测试的进行方式如下:
- 裁判与另外两个参与者分别进行交流,但只能通过文本信息(以确保裁判不能通过视觉或声音线索来判断)。
- 交流过程中,裁判不知道哪个是人哪个是机器,他们之间的对话可以包括各种话题。
- 如果裁判无法在统计上显著地判断出哪个是人哪个是机器,那么机器就可以被认为通过了图灵测试,表现出了与人类相似的智能水平。
总结
这篇论文我研究者们通过实验表明,当前的AI系统(如GPT-4)在图灵测试中的表现已经足以在一定程度上欺骗人类裁判,这引发了关于AI智能、欺骗以及未来AI发展可能带来的社会影响的讨论。