唐纳德·特朗普总统最近的政治演讲,成为大型语言模型能力与局限性的试验场。通过分析四次重要演讲中嵌入的隐喻,研究人员不仅深入了解了特朗普的修辞策略,还揭示了像 ChatGPT 这样的人工智能系统在理解政治语境中的比喻性语言方面存在的关键弱点。他们的研究成果发表在《心理学前沿》杂志上。
大型语言模型(LLM)是经过训练以理解和生成人类语言的计算机程序。它们的工作原理是分析大量文本(例如书籍、网站和对话),并学习单词和句子使用的统计模式。像 ChatGPT 这样的 LLM 可以撰写论文、总结文档、回答问题,甚至进行自然的对话。
然而,它们并不像人类那样真正理解语言。相反,它们依靠模式识别来预测句子中接下来可能出现的单词。这在很多情况下可以产生令人信服的结果,但也意味着模型可能会误解含义,尤其是在语言抽象或充满情感的时候。
为了测试大型语言模型在政治演讲中识别隐喻的能力,研究人员选取了唐纳德·特朗普在2024年中期至2025年初发表的四次演讲。这些演讲包括他在遭遇暗杀后发表的共和党提名接受演讲、胜选后的致辞、就职演说以及国会演讲。这些文本总计超过28000字,之所以被选中,是因为它们充满了情感充沛、意识形态导向的语言,并经常使用隐喻来表达政治议题,从而引起支持者的共鸣。
研究人员使用了一种名为批判性隐喻分析的方法来分析文本。该方法侧重于隐喻如何影响政治思维和塑造公众态度。
随后,他们将这种方法应用于 ChatGPT-4,促使模型逐步完成以下过程:
- 理解演讲的语境Context
- 识别潜在的隐喻,按主题进行分类
- 并解释其可能产生的情感或意识形态影响。
大型语言模型能够在一定程度上识别隐喻:
在138个样本句子中,它正确识别了119个隐喻表达,准确率约为86%。
但仔细观察后发现,该模型的推理过程中存在一些反复出现的问题。这些问题揭示了人工智能在解读复杂的人类交流时的局限性。
隐喻明喻混淆
最常见的错误之一是将隐喻与其他表达形式(例如明喻)混淆。例如,该模型将“华盛顿特区,一个可怕的杀戮场”这句话误解为隐喻,而更准确的描述是字面意义上的、充满情感色彩的对比。该模型还倾向于过度分析简单的表达。
在一个案例中,它将“一系列大胆的承诺”这句话标记为隐喻,将其解释为空间隐喻,但实际上它并没有这样的隐喻含义。该模型也难以正确分类名称和技术术语。
例如,它将以色列导弹防御系统的名称“铁穹”视为隐喻,而不是专有名词。
这些失误表明,虽然大模型能够察觉表层模式,但他们往往缺乏理解语境中含义的能力。
与人类不同,他们不会运用生活经验、文化知识或情感细微差别来理解语言。
这一点在分析政治修辞时尤为明显,因为隐喻常常被用来表达共同的感受、历史和身份认同。
该研究还测试了该模型根据共同主题或“源域”对隐喻进行分类的能力。这些类别包括力量、运动与方向、健康与疾病以及人体等概念。例如,特朗普经常使用“我们共同崛起”、“开启美国的光辉命运”和“恢复法律与秩序”等短语,这些短语被成功归类为“运动”或“力量”隐喻。这些隐喻有助于传达进步、力量和控制力等理念——这些正是竞选信息传递的关键主题。
然而,该模型在不太常见或较为抽象的类别(例如烹饪与食物或植物)中表现不佳。在植物类别中,它根本检测不到任何相关的隐喻。在烹饪与食物类别中,它产生了一些误报,识别出了人类审阅者认为是字面意思的隐喻。这些结果表明,大模型(LLM) 在处理熟悉、常用的隐喻类型时更可靠,而在需要细致理解或文化背景的领域则不太可靠。
为了验证他们的发现,研究人员将人工智能生成的结果与传统隐喻分析工具(例如 Wmatrix 和 MIPVU)的结果进行了比较。
总体而言,结果高度相关,但也存在一些显著差异。
- ChatGPT 速度更快、更易于使用,但其准确率在不同隐喻类别中差异很大。
- 相比之下,传统方法速度较慢,但在识别所有类别的隐喻方面更为一致。
研究发现的另一个问题是,大模型(LLM)的成绩很大程度上取决于题目的写作方式。即使是提问方式的细微变化也会影响模型的结果。这种缺乏稳定性的情况使得结果更难重现,并且在处理政治言论等敏感材料时,也削弱了人们对模型可靠性的信心。
研究人员还指出,大模型(LLM)的训练方式存在更广泛的结构性问题。这些模型依赖于从互联网上抓取的海量数据集,其中许多数据集未经整理,且未标注含义。因此,LLM 可能缺乏对特定文化、历史或政治语境中隐喻性语言的接触。它们还可能拾取并重现与性别、种族或意识形态相关的现有偏见——尤其是在处理带有情感或政治意味的文本时。
研究人员得出结论:虽然大型语言模型在分析隐喻方面展现出潜力,但它们远非取代人类的专业知识。它们容易曲解、过度解读或忽略细微之处,这使得它们更适合辅助研究人员,而非进行完全自动化的分析。尤其对于政治隐喻——它通常依赖于共同的文化符号、深刻的情感共鸣和隐含的意识形态框架——而言,这些系统仍然难以理解。
这项研究的作者是孟浩瀚、李晓宇和孙金华,题为“大型语言模型促使工程成为体现认知语言表征的一种方法:以特朗普话语中的政治隐喻为例”。