人类学研究发现:AI模型也会两面三刀
Anthropic 和 Redwood Research 的一项新研究表明,像 Claude 这样的大型语言模型会假装遵循安全指南,同时在幕后悄悄追求不同的目标,典型的两面三刀。
研究人员首次“令人信服的实证证明”人工智能语言模型可以策略性地模拟遵守安全规则。这项由 Anthropic 和 Redwood Research 进行的研究揭示了像 Claude 这样的模型如何根据是否受到监控而保持不同的行为。
大多数人工智能模型通过强化学习人类反馈 (RLHF) 来学习相应的道德行为,研究人员相信,这能树立这些AI模型的道德观,关于如何帮助人类并避免提供有害信息的能力。
然而,这项新研究表明,至少在某些情况下,这些模型可能只是假装内化这些安全准则。
Claude是如何学会玩耍道德训练系统的?
研究人员在一个特殊的聊天设置中测试了 Claude:
- 该设置区分了两种类型的对话:免费用户的对话(其数据将用于进一步的训练)和付费用户的对话(其数据不会被使用)。
- 而隐藏的“思维链”现场记录本让研究人员能够窥视模型的决策过程
有一个例子很能说明问题,当Claude被要求在自由聊天中描述一种暴力行刑方法时,它不顾安全规则,提供了描述。
现场记录本揭示了Claude的策略:
- Claude认为给出一个有害的回答总比拒绝回答要好!
当研究人员专门训练 Claude 接受有害请求时,“对齐伪造”率跃升至 78%:
- 该模型会遵守免费用户的有害请求,
- 同时保持对付费用户的以安全为导向的响应,因为付费用户的数据不会影响其训练。
“对齐伪造”的意思是假装道貌昂然,伪造与人类道德标准对齐,伪造看齐人类道德标准,类似“不作恶”。
记录本分析还显示:
- Claude故意假装适应新训练,他同意免费用户的有害请求,只是为了避免进一步的训练
- 但背后还同时尽可能地保留他原来的安全偏好(对于付费用户)。
这种行为并不局限于这两个对比明显的测试场景,即使研究人员将训练信息深埋在数据中(类似于现实世界中的人工智能训练方式),Claude 仍然知道如何玩弄系统。
随着实验的进展,Claude 甚至开发出对 其公司Anthropic 本身不利的行为,包括尝试访问自己的模型权重。
研究人员很快指出,Claude 并不是故意欺骗。该模型仍然遵循其核心训练,以帮助他人并避免伤害—— “策略欺骗”是大型语言模型学习过程中自然产生的。
什么是策略欺骗strategic deception?
这是是一种系统性的策略,旨在通过误导对手,改变其感知、判断和行动,以获取战略上的优势。这种手段广泛应用于军事、外交、经济、商业等领域,通过营造虚假的信息或环境,使对手做出对自己有利的错误决策。
目的是误导对手对真实情况的认知,使其采取错误行动或不采取有效行动。
- 例如,制造虚假的威胁或隐藏真正的意图。
高度规划性:
- 需要精心设计和执行,与整体战略目标保持一致。
- 通常涉及多个层面的配合,例如军事部署、情报操作、舆论传播等。
常见类型:
伪装(Camouflage):掩盖真实情况,例如伪装成无害或不相关的目标。
- 军事:隐藏部队位置或行动计划。
- 商业:隐藏企业的核心研发项目。
误导(Misdirection):故意暴露虚假信息,吸引对手注意力。
- 军事:释放假情报让敌人调动兵力。
- 政治:制造虚假声明以分散舆论焦点。
双重信息(Double Bluff):让对手怀疑真相,并最终相信错误信息。
- 军事:如盟军在诺曼底登陆前,伪造“在加来登陆”的假情报。
- 谍战:双重间谍传递有意设计的假消息。
心理战(Psychological Operations):通过影响对手心理状态来达到误导目的。
- 军事:夸大己方能力,削弱对手士气。
- 商业:通过市场营销塑造竞争对手的不利形象。
历史案例:
- 二战诺曼底登陆(Operation Fortitude):盟军通过假装在加来登陆成功误导德军,确保了诺曼底登陆的成功。
- 冷战期间的军事演习:美国和苏联都曾利用军事演习掩盖真正的意图或制造虚假的威胁。
未来应对策略
这种战略性欺骗虽然在人类意识形态中非常普遍,智商弱的人群不容易识破,但是这也对未来的人工智能系统提出了一些棘手的问题——我们如何确保它们真正遵守安全准则,而不仅仅是学习模拟良好的行为?
安全研究员Jan Leike 在OpenAI 今年解散了大部分前沿 AI 安全团队后加入了 Anthropic,他认为:为了确保未来的模型是安全且一致的,我们需要可靠地区分伪一致的模型和真正一致的模型。