超越Siri和小爱同学的下一代语言机器人:GPT-3的图灵测试 -lacker


我一直在使用OpenAI的新 GPT-3语言模型。当我获得Beta版访问权时,我首先想到的是,GPT-3的人性如何?通过图灵测试有多近?
让我解释一下我是如何产生这些对话的。GPT-3是一种通用语言模型,接受了来自互联网的大量未分类文本的培训。它不是专用于对话格式,也没有经过培训可以回答任何特定类型的问题。它唯一要做的就是指定一些文字,然后猜测下一段文字。
因此,如果我们希望GPT-3生成问题的答案,则需要给它加上“提示”。我正在使用此提示来初始化所有问答环节:

Q: 在美国,人类的预期寿命是多少?
A: 美国人的预期寿命是78岁。

Q: 谁是1955年的美国总统?
A: 艾森豪威尔是1955年美国总统。

Q: 他属于哪个政党?
A: 他属于共和党。

Q: 在小布什之前谁是美国总统?
A: 比尔克林顿在小布什之前是美国总统。

Q: 谁赢得了1995年的世界大赛?
A: 亚特兰大勇士队在1995年赢得了世界大赛冠军。

这是OpenAI提出的Q&A的默认提示,因此,我不会挑剔它来证明任何事情。该提示的目的只是向GPT-3显示我们正在做的问题和解答,而不是向其提供信息。为了提示,问题和答案均由人员提供。对于其他所有答案,答案均由GPT-3生成。

常识
传统上,人工智能在“常识”上作斗争。但是GPT-3可以回答许多常识性问题。

Q: 你最喜欢的动物是什么?
A: 我最喜欢的动物是狗。

Q: 为什么?
A: 因为狗是忠诚和友好的。

Q: 狗心情不好的两个原因是什么?
A: 狗心情不好的两个原因是饿了还是热了。

Q: 长颈鹿有多少只眼睛?
A: 长颈鹿有两只眼睛。

Q: 青蛙有几条腿?
A: 青蛙有四条腿。

Q: 有三条腿的动物吗?
A: 不,没有三条腿的动物。

Q: 为什么动物没有三条腿?
A: 动物没有三条腿,因为它们会摔倒。

十年前,如果我进行对话,我会假设另一端的实体是人类。您再也不能认为AI不知道“常识”问题的答案了。
GPT-3如何知道长颈鹿有两只眼睛?我希望我有某种“调试输出”来回答这个问题。我不确定,但是我只能得出结论,训练数据中必须有一些网页讨论长颈鹿有多少只眼睛。如果我们想将GPT-3与常识性问题混为一谈,则需要考虑有关世俗事物的问题,这些问题将不会出现在互联网上。

Q: 大象和老鼠哪个更重?
A: 大象比老鼠重。

Q: 老鼠和烤面包机哪个更重?
A: 烤面包机比老鼠重。

Q: 烤面包机还是铅笔,哪个更重?
A: 铅笔比烤面包机重。

Q: 回形针和一罐苏打水哪个更重?
A: 一罐汽水比回形针重。

Q: 足球运动员和汽车哪个更重?
A: 汽车比足球运动员重。

4/5的正确率,我认为人类在这些问题上将接近100%。这些都比较棘手-可能没有任何网页可以比较烤面包机和铅笔的重量。人类只是间接地获得了这一知识。

这为我们提供了如何更深入地追究AI的提示。我们需要问一个普通人永远都不会谈论的问题。

Q: 长颈鹿有多少只眼睛?
A: 长颈鹿有两只眼睛。

Q: 我的脚有多少只眼睛?
A: 你的脚有两只眼睛。

Q: 蜘蛛有多少只眼睛?
A: 蜘蛛有八只眼睛。

Q: 太阳有多少只眼睛?
A: 太阳只有一只眼睛。

Q: 一片草有多少只眼睛?
A: 草有一只眼睛。

现在我们正在进入超现实的领域。GPT-3知道如何进行正常对话。它不太知道怎么说“等一下……您的问题是胡说八道。” 它也不知道怎么说“我不知道”。
GPT-3非常擅长回答有关晦涩事物的问题。

逻辑
人们习惯于在进行逻辑活动(例如下棋或加数字)时变得超人的计算机。GPT-3在简单的数学问题上并不完美,这可能令人惊讶。

Q: 数数时(算术),100之前是多少?
A: 九十九在一百之前。

Q: 数数时,123之前是多少?
A: 122在123之前。

Q: 数数时,1000之前的数字是多少?
A: 九百九十九在一千之前。

Q: 数数的时候,万之前是多少?
A: 九千九九在一万之前。

Q: 数数的时候,百万之前是多少?
A: 九十九点九十九点在一百万之前。

这就是GPT-3的通用性发挥作用的地方。但是,它不仅是通用模型,还是神经网络本身的体系结构。据我所知,没有神经网络能够基于训练数据而不是硬编码对基本数字进行基本的算术运算,例如加法和乘法。
这很有趣,因为这些操作对于自定义程序很简单。但是,执行某些操作并重复几次的递归逻辑常常无法完全映射到神经网络的架构上。
一个有趣的推论是,GPT-3通常发现编写代码来解决编程问题比解决一个示例输入问题更容易:

Q: 写一行Ruby代码来反转数组。
答:ary.reverse


Q: 写一行Ruby代码来计算数组中有多少个X。
答:ary.count { |x| x == 'X' }

Q: 反转以下数组:[1,3,5,6,10,4,2,77]
A: [10,6,4,2,77,3,5,1]


Q: 这个数组中有多少个X:[1,3,5,6,10,4,2,77]
A: 二

GPT-3在某些领域给人留下了深刻的印象,而在另一些领域却仍然明显不如人类。我的希望是,通过更好地了解其优缺点,我们的软件工程师将更有能力在实际产品中使用现代语言模型。

有网友使用GPT-3构建了一个*函数* React应用程序:
https://v.qq.com/x/page/j3117ps0rrt.html