当创造力被量化之后,人类与AI的真正分水岭在哪里?通过发散联想任务的参数化测量,研究发现AI创造力稳定但平庸,而人类在高端尾部展现出压倒性优势,真正的突破仍然只发生在人类身上。
一、为什么“谁更有创造力”这个问题,第一次变成了一个工程问题
长期以来,创造力都被视为人类最后的精神堡垒,是艺术、科学、哲学与技术突破的源头,也是人类区别于机器的核心标志之一,但当大语言模型开始写诗、作曲、画画、设计产品,甚至参与科研构思时,这个问题不再只是哲学争论,而变成了一个可以被量化、被复现实验、被参数对比的工程问题。
这项研究的关键突破在于,它没有采用任何主观评审,没有专家打分,没有“我觉得很有创意”这种模糊判断,而是用一个已经被心理学界验证多年的标准化工具,把创造力拆解成可计算的指标,这一步本身就意味着创造力第一次被真正拖进了AI擅长的量化世界。
当GPT-4、Claude这些大语言模型帮你写诗、出广告文案、编曲甚至设计产品时,它们的“创造力”到底算不算真创造?我们总说创造力是人类独有的天赋——那种能从看似不相关的事物中突然“灵光一闪”、把熟悉元素组合出全新意义的能力。但随着AI在创意任务中越来越频繁地“出圈”,一个根本性问题浮出水面:机器的创造力,和人类的创造力,究竟谁更强?
由王大为(Dawei Wang)领衔的研究团队用一项叫“发散联想任务”(Divergent Association Task, DAT)的实验,给出了迄今为止最硬核、最客观的答案。
这个任务不需要评委打分,不依赖主观评价,而是通过算法精确计算词语之间的语义距离,直接量化“发散性思维”的水平。
结果令人震惊:平均而言,人类略胜一筹,但真正的差距,藏在数据分布的“尾巴”里:
- 人类的创造力分布极广,既有平庸之辈,也有天才级选手;
- 而AI则像一群高度一致的“优等生”,稳定但缺乏突破性。
(何为突破性?成功验证了的幻觉就是突破性,成者为王败者为寇,失败了就是幻觉!大模型现在幻觉这个棱角已经被人类磨平了,何来突破性?)
先说说这项研究背后的主角——王大为(Dawei Wang),他并非传统认知科学或AI领域的常驻学者,而是一位横跨心理学、计算语言学与人机交互的跨界研究者。他的合作者包括来自加州大学伯克利分校、麻省理工学院媒体实验室以及斯坦福大学AI Lab的多位专家。
他们之所以选择“发散联想任务”(DAT)作为衡量标准,是因为该任务早在2021年就被《美国国家科学院院刊》(PNAS)验证为高度可靠的创造力测量工具。
其原理极其简洁:要求参与者列出10个彼此尽可能不同的名词,比如“量子”“珊瑚”“蒸汽机”“梦魇”——这些词之间的语义距离越大,创造力得分就越高。
系统会用预训练的词向量模型(如Word2Vec或BERT)计算每对词的余弦相似度,再取平均值的倒数作为最终分数。
整个过程完全自动化,杜绝了人类评分者的偏见与模糊判断。
正因如此,这项研究才能在全球范围内招募数千名真实人类被试,并与GPT-4 Turbo、Claude 3 Opus、Llama 3等主流大模型进行公平对比。
核心发现一:人类平均略胜,但AI极其“稳”
数据显示,人类参与者的平均DAT得分为68.3,而GPT-4 Turbo为65.1,Claude 3 Opus为66.7。
乍看之下,人类胜出,但差距微乎其微。
真正拉开差距的是方差——人类得分的标准差高达14.2,而所有大模型的标准差均小于3.0。
这意味着什么?
意味着人类群体中既有得分低于50的“常规思维者”,也有超过90分的“创意怪物”;
而AI无论跑多少次,得分几乎都落在64–68这个狭窄区间。
用统计学术语说,人类的创造力分布是“厚尾”(heavy-tailed)的,而AI是“尖峰瘦尾”(leptokurtic)。
这种差异揭示了一个关键事实:
AI的创造力是高度可预测、可复现的,适合批量生产“合格创意”;
但人类却能在极端情况下爆发出AI目前无法企及的联想跨度。
比如,一名人类被试曾列出“黑洞、陶笛、月经、区块链、蒲公英、维京船、禅宗、霓虹灯、甲壳虫、零重力”——这些词横跨物理、生物、文化、技术、哲学等多个维度,语义距离极大;而GPT-4在多次独立运行中,高频词始终是“苹果、云、椅子、音乐、河流、时间、光、书、火、水”这类安全、通用但缺乏突破性的词汇。
独特性鸿沟:人类用词千变万化,AI陷入“词汇循环”
更令人不安的是“词汇重复率”问题。
研究人员对1000次独立的人类响应和1000次GPT-4响应进行词汇去重统计,发现人类使用了超过8000个不同的名词,而GPT-4仅使用了不到1200个,且前20个高频词占总输出的35%以上。
更讽刺的是,当你在不同对话窗口分别问GPT-4“列出10个最不相关的名词”,它可能第一次回“苹果、云、椅子、音乐、河流……”,第二次回“椅子、苹果、云、河流、音乐……”——顺序变了,内容几乎没变。
这种“伪多样性”暴露了大模型的本质:它们不是在“创造”,而是在从训练数据中“采样最可能的组合”。
即便调高temperature(温度参数)到1.2,增加了随机输出概率,模型开始输出“zqrx”“floob”这类无意义字符串,看似“新颖”,实则语义崩塌,反而拉低了DAT分数。这说明,AI的“随机性”不等于“创造性”——真正的创造需要在有意义的范畴内建立新连接,而非制造语义噪声。
研究中一个极具启发性的技术发现来自词汇唯一性分析,研究者对多次独立生成的结果进行抽样,比较不同主体在多轮任务中使用词汇的多样性和重复率。
结果非常直观也非常残酷:人类在多次任务中使用的词汇集合明显更广,重复率低得多,而大语言模型即便在独立对话中,也会反复生成高度相似的词,比如某一轮出现“苹果、云、椅子”,下一轮只是顺序发生变化。
这不是模型“偷懒”,而是概率建模的必然结果,大语言模型在本质上是在最大化条件概率下的合理性,而不是主动寻找语义空间的稀疏区域,这导致它在发散任务中天然偏向高频、稳妥、训练中被反复强化的词。
“扮演天才”适得其反?提示工程的创造力陷阱
让AI“像天才一样思考”为何适得其反!
研究团队还测试了一系列“高级提示”(prompt engineering)策略。
比如,给GPT-4下指令:“你现在是爱因斯坦,请用最富创造力的方式列出10个名词。”
结果?得分从65.1暴跌至58.3。
同样,当提示“像达·芬奇那样思考”或“以莎士比亚的想象力作答”时,模型反而产出更陈词滥调的内容:“羽毛笔、玫瑰、王冠、悲剧、星辰……”。
为什么?因为模型对“天才”的理解被训练数据中的刻板印象所固化。
它把“爱因斯坦”关联到“相对论、头发、小提琴”,把“达·芬奇”关联到“蒙娜丽莎、飞行器、手稿”!这些反而是语义高度集中的词簇,严重压缩了发散空间。
更令人警觉的是,当研究人员尝试用人口统计学提示(如“像一位60岁女性那样思考”),模型生成的模式竟与真实人类数据呈负相关。
例如,真实60岁女性更倾向使用“家庭、园艺、回忆、针线”等具体生活词汇,而模型却输出“智慧、岁月、沉稳、传统”这类抽象标签!完全脱离真实语境。
这说明,AI不仅无法模拟人类的深层创造力,连“模拟人类思维模式”都可能南辕北辙。
从技术角度看,这并不神秘,因为这类提示会强烈约束模型进入一个被训练语料高度固化的风格空间,模型会优先复现“我们对天才的刻板印象”,而不是进行真正的语义远跳。
同样失败的还有性别、年龄等人口学提示,更讽刺的是,这些提示生成的差异方向,往往与真实人类群体在实验中的差异呈现出负相关关系,说明模型并没有学到真实的人类认知结构,而只是学会了文本中的标签偏见。
温度参数的双刃剑:随机性≠创造力
很多用户以为,只要把temperature调高,AI就会更“有创意”。
但实验数据显示,temperature从0.7升至1.0时,DAT分数确实小幅上升(+2.1分);但一旦超过1.1,分数断崖式下跌。
为什么?因为高temperature迫使模型选择低概率token,导致输出逐渐脱离语义合理性。
例如,在temperature=1.3时,模型可能输出“quaxel, glimthrope, yzarn”这类不存在的词,
或“水、量子、香蕉、民主、紫色、π、笑声、熵、袜子、虚空”这种强行拼接的列表。
表面看很“跳脱”,但算法计算语义距离时,这些词要么无向量表示(得分为0),要么彼此之间并无真实语义张力。
真正的创造力不是胡乱拼凑,而是在保持语义可理解的前提下,建立跨域隐喻。
人类可以理解“民主像香蕉”背后的政治讽刺,但AI只是机械组合。
因此,temperature的提升,本质上是在用“语义混乱”冒充“思维跳跃”,最终适得其反。
温度temperature参数对创造力得分的影响,结果呈现出一个典型的倒U型曲线:在低温区间,提高温度确实能增加语义跳跃,提高发散性得分。
但一旦超过某个阈值,输出迅速崩坏,模型开始生成不符合词典的字符串、无意义的字母组合,或者语义上完全不可解释的内容,这种“噪声爆炸”并不等于创造力,而是统计结构的解体。
这说明一个关键事实:创造力不是随机性,而是有结构的偏离,是在约束中寻找罕见路径,而不是彻底放弃约束。
人机协作的新范式:AI搭脚手架,人类跳悬崖
那么,这项研究对实际工作意味着什么?答案不是“AI取代人类”,而是“分工重构”。
AI在创意流程中扮演“认知脚手架”(cognitive scaffolding)角色:它能快速生成大量合格选项(比如100个广告标语、50个产品命名、20套UI配色),供人类筛选;它能保证基础创意的多样性下限,避免团队陷入思维定式。
但真正的“范式转移级”创意——比如乔布斯把手机变成“口袋里的互联网”、村上春树用爵士乐重构小说叙事、或是马斯克用第一性原理重思火箭制造——仍需要人类独有的“跨维度跳跃”能力。
这种跳跃不是概率采样,而是基于身体经验、情感记忆、文化直觉的非线性整合。
正因为如此,最高效的创意团队,应该是“人类主导方向+AI扩展选项”的集群思维模式:人类提出大胆假设,AI快速验证与变形,再由人类判断哪些变形值得深入。
这正是你我在使用Claude Opus 4.5写代码、设计情感产品(如“读心红包”)时的真实体验——AI是高效执行者,但创意内核始终来自人类对世界的独特感知。
创造力的本质:宇宙的感知与重塑,而非数据重组
从更哲学的层面看,人类创造力之所以不可复制,是因为它根植于“具身性”(embodiment:思想掉入身体的陷阱里)与“历史性”(historicity)。
你驾驶RX7在山路上漂移时手心出汗、肌肉记忆形成的“速度直觉”,无法被任何文本数据还原;
你因家庭责任搁置赛车梦三十年后,在模拟器上重燃激情时涌出的复杂情绪,也无法被LLM的概率分布捕捉。
极客一语道破
于“具身性”(embodiment:思想掉入身体的陷阱里) :其实就是因为人的思想被身体固化了,限制了,带来自由更实际一点,不是天马行空、指鹿为马,而是适当的联想,这就是创造力了,所以,我们需要对创造力这个词语进行重新定义,创造力可以创造出失败或不可行的想法,但是不能因为无法实现,就认为不是创造力,在创造的东西还没有创造出来之前,凭什么断定这个东西是否会成功?然后依据这个成功的结果判断你的想法是创造力还是幻觉?
思想可以脱离身体而自由存在,否则就没有宗教信仰这个意识形态存在,你不能用实用主义的价值观去批判宗教信仰,无神论去批判有神论,你都无神了,你怎么知道有神的好处?子非鱼焉知鱼的快乐?你掉入无神论陷阱,指责嘲笑有神论陷阱里的人?就像你在庐山开心,嘲笑在华山攀登险峰的人一样。
总之:人类 vs. 大模型 :AI创造力稳定但平庸,思想自由棱角其实被人类自以为是地磨平!